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Syst^me detraction d 1 informations 
dans un texte en langage naturel 

La prSsente invention concerne un syetSme d 1 extraction 
d' informations dans un texte en langage naturel, en vue de 
selectionner lee mots ou les gfroupes de mots du texte qui 
d^crivent le mieux les sujets abord6s dans le texte. Ces mots 
ou groupes de mots sont appel€s les "mote-cies" et sont 
notamment utilisables k des fins d' indexation du texte dans 
une base de donnSes documentaire, en particulier pour le 
resume automat ique du texte, pour la categorisation ou toute 
autre tentative de representation de la connaissance. 

Les systSmes d 1 extraction d 1 informations que I'on connait et 
qui tentent d'atteindre ces objectifs utilisent des methodes 
d' analyses de trois types : . 

- les methodes d' analyse statistique qui tentent d'eiire les 
mots du texte les plus repr6sentatif s en constant leurs 
frequences d' apparition et en ne retenant que eeux dont la 
frequence n 1 est ni trop f aible , ni trop forte ; 

- les methodes d' analyse S. thesaurus qui fonctionnent d'aprSs 
une representation predefinie de la connaissance et qui sont 
basees sur la definition pr^alable d'un lexique structure de 

4 ft ■ v — a 

reference appeie thesaurus, Cette definition est entidrement 
manuelle et doit Stre oper£e dans chaque domaine de 
spScialites; 

. « 

- les methodes d 1 analyse k reconnaissance de motifs (patterns) 
qui fonctionnent k 1' aide ^'identifications statistiques de 
motifs (patterns) , 

Le fonctionnement comparatif de ces trois types de methodes 
d' analyse va fitre illustre ci-aprSs par 1" analyse du texte 
euivant : 
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.«C*ts» l'una des comedies musicalee lea plus longtetnps a 1-afriche, va 
tirer a. reverence apres vingt at ^ annees sur la scene londonienne. La 
derniexe representation da cette «uvre d< Andrew Lloyd Kebber aura lieu le 
11 mai. joux da son 2le anniversair^, apres qaalque 9 ooo representations. 
Vannonce a ate faite troia apres la demise representation da 

•Starlight Express*, la aeconde comSdie musicale la plus longtemps 4 
1-affiche a Londres, aprte dix-huit annees eux lea planches. 

■ 

La fin da «Cate» est un coup dux suppl&ientaire pour le quartier de Covent 
Garden, o& sont regroupfo la plupart des theatres londoniens, et qui a 
souffert d'une forte baiaae de fragmentation en 2001. Depuis 1501, annSe 
da aon lancemant, la comedie nusicale a, depnis, etfi interprets devant 
plus de SO millions de epectafceurs en 11 langues et dans 26 pays." 

(source Reuter) 

Fonctionnement des methodes d« analyse etatistique ; 

Si l'on considere leur approche de facon caricaturale, les 
methodes d' analyse statistique comptent les mots du texte pour 
ne retenir que ceux dont la frequence n'est ni trop faible ni 
trop forte en eliminant parfoiB les mots outils (articles, 
prepositions, conjonctions, auxiliaires verbaux) , afin 
d'af finer les resultats. En ce qui concerne le texts propose 
ci-dessus, les mots ''moyennement'' frequents (sans prendre en 
consideration les mots outils) sont alors : 

affiche, annees, Cats, comedie, derhiere, ete, longtemps, 
musicals et representation. 

■ 

Bien que le principal avantage des methodes d> analyse 
statistique reside dans une grande simplicite algorithmigue, 
leur principal deBavantage reside en la faible pertinence des 
resultatB. En effet, les mots "moyennement'' frequents d'un 
texte sont rarement les plus representatif s . Ces methodes 
peuvent toutefois donner de meilleurs resultats sur des textes 
plus longs que le texte d' example ci-dessus. 
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D- autre part, du fait que l. texte est decoupe en mots, e'eat- 
a-dire en chaines de caraeteres dent les delimiters sent des 
espaces, les liens semantiques qui peuvent reliex des mots 
entre eux, comme pax exemple les mots "comedie" et "musicale", 
eont perdus. 

Fonctionnement des methodes d' analyse a thesaurus : 

Ces methodes sont baeees sur la definition prealable d'un 
lexique structure de reference appelS thesaurus, cette 
definition Stent f comme onl'a mentionne plus haut, 
entierement manuelle et devant etre operee dans chaque domaxne 
de speciality. 

Imaginons par exemple le thesaurus euivant : 

spectacle -> comedie (s) -> dramatique 

Tnusicale Cats 

_> 1,66 dix commandements 



Avec ce type de methodes, il est toujours possible 
d' identifier les mots du texte source qui se retrouvent 
exact ement sous la mSme forme dans le thesaurus. L'avantage de 
cea m6thodes est que 1 ' on peut etre sur que les mots 
identifies correspondent a une realite culturelle ou 
ecientifique etablie et repertoriee. D ' autre part, il est 
possible de deduire un mot federateur comroe "spectacle" qui ne 
fait pas partie du texte initial, mais qui le caracterise 
correctement . En revanche, 1 • inconvenient majeur de ces 
methodes est qu'il faut perpetuellement raettre a jour le 
thesaurus pour qu'il conserve sa pertinence, ce qui entralne 
dee frais de maintenance importants. Un autre inconvenient 
important de ces methodes reside dans le fait qu'un thesaurus 
constitui pour analyser des textes dans le domaine de la 
chimie ne pourra pas §tre utilise pour des textes dans le 
domaine de 1 ■ 61ectronique , par exemple. De plus, dans le cas 
ou le thesaurus n'est pas exhaustif , certaines expressions qui 
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peuvent etre trSs pertinentes ne seront pas reconnues comma 



Fonctionnemeat dee methodes d' analyse a reconnaissance de 
motifs : 

Les methodes d' analyse a reconnaissance de motifs que l'on 
connalt sont des methodes d' identification statistiques de 
motifs qui, bien qu'elles ameliorent eonsiderablement les 
methodes d' analyse statistigue mentionnees plus haut, en. 
conservant la trace de 1 ' appariement des mots, comme par 
exemple des termes "comedie" et "musicale" de 1' exemple ci- 
dessus, ne permettent pas d' analyser de facon correcte des 
textes courts. En effet, les methodes statistiques ont beeoin 
de quantite pour fonctionner correctement . 

Par exemple, les motif s-clee du texte d' exemple seront obtenus 
par comparaiBons approximatives de sequences plus ou moins 
longues entre elles, Les mots outils (le, la, les, J ne 
content pas, et les sequences sont formees k partir d'un mot, 
plus ou moins trois toots : 

Cats 

Cats comedies 

Cats comedies musicales 

Cats comedies musicales longtemps : 

comedies 

comedies musicales 

comedies musicales longtemps 

comedies musicales longtemps affiche 

musicales 

musicales longtemps 
musicales longtemps affiche 
musicales longtemps affiche tirer 
etc- 

II suff it ensuite de regrouper les dif ferentes sequences 
obtenues, par approximation sur la forme (par exemple 
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c copies > et « coddle ») . et de colter lea expressions 
combines les plus £ requentes comma « comedies musicalee > . 

Le but de la presente invention est de proposer un systems 
pour I- extraction d ' information dans un texte en langage 
naturel permettant de remedier aux inconvenients des methodes 
d- analyses connues, en permettant notamment une analyse de 
bonne qualite de textes aussi bien courts que longs. 

Ce systeme utilise une methode d' analyse par identification de 
motifs (patterns) non pas purement statistique, mais egalement 
syntaxique . 

Bn resumS, le systeme propose convert it les mots du texte en 
suite de categories Byntaxiques, puis conf route des sous- 
ensembles du texte avec des motifs syntaxiques predefinis, de 
facon a identifier des groupes nominaux sans prejuger de la 
valeur des mots qui composent ces groupes. 

Ainsi, les mots « pomme de terre » ou « Electronique de 
puissance * ne eont pas important par eux-mSmes, mais sont 
importants par rapport au texte ou ils apparaissent . Dans un 
texte de nature generale <c electronique de puissance » peut 
n'etre qu'un exemple, pas un mot-clS du texte, mais sera 
probablement mot-cle dans un texte traitant des transistors, 
c'est le contexte qui fait le mot-clS, et le syet&ne selon la 
presente invention comporte en quelque sorte un analyseur de 
contextes syntaxiques. De meme, le mot -porte" peut etre 
reconnu comme nominal dans certains textes a cause de sa 
position par rapport aux autres mots du texte, ou simplement 
comme mot structurel dans d« autres textes. 



Une methode d« analyse par identification de 
proposee dans le document US 4,864,501. Le precede decrit dans 
ce document anterieur utilise, pour le codage des mots du 
texte en vue de 1 ' identification des motifs , un dictionnaire 
contenant les mots radicaux (base forms) . Outre le fait que 
dictionnaire est tres volumineux puisqu ' il contient plusieurs 
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dizaines de milliers d' entrees, le precede necessite dee 
algorithmes complexes de radicalisation dee mote, specifics 
a cheque langue, pour retomber but dee mots du dictionnaire , 
ainsi qu ' eventuellement des tables specif iques de 
prefixes /suffixes pour traiter les cas d'erreurs 
d'orthographe, etc. 11 e'agit par consequent d'un precede tres 
lourd a mettre en ceuvre at a utiliser. 

Le systeme d' extraction selon la presente invention permet de 
remedier a ces inconvSnients . 

A cet effet, 1' invention concerne un procedi d« extraction 
d 1 informations dans un texts en langage naturel, par 
identification de motifs (patterns) , selon lequel on ef fectue 
un codage des mots du texte en les cotnparant aveo le contenu 
d'un lexique pridefini contenant quelques dizaines de mots 
outils, et selon lequel on identifie eneuite des groupes 
nominaux en recherchant, parmi des eous-eneembles de la suite 
des mots codes ainsi obtenue, des groupes de mots cod6s 
repondant iL des regies syntaxiques prSdSfiniee. 

L 1 invention conceme egalement un systems d' extraction 
d' informations dans un texte en langage naturel comprenant : 

- una unite d' entree pour recevoir ledit texte en 
langage naturel, 

- tin f ichier lexique dans lequel sont enregistr^s des 
mote outils , 

- un processeur d f analyse relie h ladite units d' entree, 
au f ichier lexique et agencS pour ef f ectuer dans un 
premier temps le codage des mote dudit texte en 
langage naturel par Evaluation de la fonction 
grammaticale de chaque mot en le comparant avec le 
contenu dudit f ichier lexique de mots outile, de fa<?on 
d'une part sL rep§rer les mots outils dans le texte et 
a evaluer la fonction des mots d' usage , non reconnus 
cotntne mots outils , en comparant leur emplacement par 
rapport a 1 1 emplacement des mots reconnus comme mots 
outile , et dans un deuxi&me temps une recherche r parmi 



18/01 '05 15:52 FAX +41 21 343 40 50 ABREMA + WOODARD ©Oil 





PCT/CH20O3/00O49O 
WO 2004/010324 

- 7 - 

des soue-ewaeniblee de la suite de mots codSs obtenue, 
dee groupes de mots codes r€pondant a des regies 
syntaxiques pr^definies, de fagou k identifier des 

groupes nominaux, 
- une unite de sortie reliee audit processeur d* analyse 
pour recevoir lea groupes de wots codSs reconnus conmie 
des motifs syntaxiques . 



Le systeme d' extraction eelon 1' invention evalue la fonction 
grammatical des mots du texte a analyser a l'aide d'un 
lexique predefini contenant les quelques dizaines de mote 
outils propres a chaque langue et qui sont essentiellement les 
articles, les prepositions, les conjonctions et auxiliaires 
verbaux. La fonction des autres mots est ensuite deduite grace 
a 1 ■ emplacement des seuls mots outils. Du fait que les mots 
outils d'un texte represented couramment 40 a 50 % des mots 
de ee texte, ceux-ci sont done toujours assez nombreux pour 
, permettre 1' evaluation des autres mots. Ensuite, seules les 
parties du texte dont la grammaire est identifies eomme mots- 



Les avantages du systeme d' extraction eelon 1' invention sont 
nombreux. En particulier, , le lexique de mots outils utilise 
par le systeme est incomparablement plus lager que les 

dictionnaires contenant plusieurs milliers de mots 

qu'utilisent les syst ernes connus. On relevera, d' autre part, 
qu'aueune intervention humaine n'est liecessaire pour la 
determination des mots-cles, que le systeme peut fonctionner 
pour des textes de langues diverses et que, mis a part le 
lexique des mots outils, il ne necessite aucun autre lexique. 
De plus, du fait que la valeur semantique et grammaticale des 
mots outils est fixe et n'evolue pratiquement jamais sur 
plusieurs d£cennies, la maintenance du lexique est des plus 
reunites. En revanche, la valeur des autres mots, que l'on 
peut appeler les mots d' usage (verbes, noms, adjectifs) , 
Svolue sans cesse dans le temps, en fonction des usages, de 
Involution des metiers ou des sciences, ou simplement en 
fonction de 1 1 actualite . Du fait que le systeme de la presente 



! 
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invention ne presuppose rien aur la valeur des mots d usage, 
il fonctionne de facon identique dans tous 1m domames, 
litteraire, technique ou scientifique, alors que les systemes 
qui utilisent les methodee connues doivent toujoure Stre 
enrichis avec des lexiques specialises, fabriques bien souvent 
sur mesure. Enfin, ce systeme detraction permet d'adreeser 
de nouvelles langues incomparablement plus rapidement que 
n'in?>orte quel autre systeme propose jusqu'ici. 

■ 

■ ^^^^^ 

D • autre part, contrairement aux systemes utilisant des 
methodes d- analyse statistique dans lesquelles la frequence 
d ' apparition des mots est mi critere de selection, ce qui 
suppose que le texte soit suffisamment long, le systeme selon 
1« invention n- accords a la frequence d« apparition des mots 
qu'une importance Bubaltezne et fonctionne aussi bien pour des 
textes longs de plusieurs dizaines de pages que pour des 
textes courts de quelques lignes. 



On va decrire ci-apres, a titre d'exemple, un systeme 
d' extraction d ' informations selon 1» invention dans un texte 
langage naturel, en Be referant aux deesins, sur lesquels : 

■ 

- la fig. 1 est un schema-bloc du systeme d' extraction selon 
1' invention; 



« • i 



_ ia fi g . 2 est un schema-bloc des etapes d'un mode 
d' execution du proc6d€ selon 1' invention. 

L' utilisation d'un modele syntaxique reqiiiert de reconnaltre 
la langue du texte analyse . C • est done naturellement la 
premiere operation qu'effectue le systeme d» extraction selon 
1' invention. Cette reconnaissance de la langue peut etre basee 
sur dee critSree purement statistiques de cooccurrence de 
lettres. La reconnaissance des langues, par exemple anglais, 
espagnol, francais, portugais, allemand ou italien, permet 
d'orienter les analyses qui seront realisees en aval. 



i 
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L'etape suivante est une etape de profilage du texte qui 
permet d> identifier les lignes de texte (paragraphs) 
comportant une information linguistigue, et d'operer dee 
regroupements de paragraphee- Cette operation est 
particulierement utile pour les textes structures (avec 
titre S/ soue-titres, etc.), car elle permet de regrouper des 
paragraphee de faoon coherente. Elle est inutile pour 
textes courts. 

L'etape suivante consiste en une operation de regularisation 
du texte au cours de laguelle il s'agit d'eliminer les 
amalgames de signes , comme par exeraple eeparer les caracteres 
typographies des caracteres alphabetiques . Il sera par 
exemple utile de reeonnaltre la chains "mot," comme le terme 
"mot" suivit de alors que la chaine "1,5" devra etre 

reconnue comme un nombre . 

Dans le texte d'exemple, cette etape revient a sfiparer les 
caractSres typographiques ( " , " , ■ ' ■ et » . " ) des autres mots 
par des espaces blancs. Le texte d'exemple devient alors : 

"« Cats » , I ' une des comedies muslcales les plus longtemps a I ' affiche ; va finer 
sa reverence apres vingt et une annees sur la scene londonienne . La demlere 
representation de cette oeuvre d ' Andrew Ubyd Webber aura lieu le 1 1 mai , jour 
de son 21 e anniversaire . apres quelque 9 000 representations . L ' annonce a ete 
faite trots jours apres la demiere representation de « Starlight Express » , la 
secohde cdmedie muslcale la plus longtempB a I ' affiche a Uondres , apres dix - 
hult annees sur les planches . 

La fin de « Cats » est un coup dur supplementally pour le quarter de Covent ^ 
Garden , o& sont regroupes la plupart des theatres londoniens , et qui a souffert d 
une forte baisse de frequentation en 2001 . Depuis 1981 , annee de son 
lancement, la comedie musicale a , depuis , ete lnterpretee devant plus de 50 
millions de spectateurs en 1 1 langues et dans 26 pays . " 

L'etape suivante, qui constitue une etape cle du systeme, 
consiste a determiner la categorie de chaque mot. Grace au 
lexique restreint des mote outils, les mots du texte sont 
codes selon des categories grammatical es attributes en 
fonotion de la valeur eyntaxique dee mots. Les mots outils du 
lexique sont dans un premier temps reconnue dans le texte, 
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puis la f onction des autre* mots du texts est deduite en 
fonction de leur emplacement par rapport aux mots outils d£j*L 
reconnus . 

Ainsi, si l'on adopte par exemple lu categories euivantes : 

s= mot de structure (mot outil non utile pour la suite de 

1 ■ analyse) 
d: determinant (le r la, les, etc-) 
p: proposition (de, en, par r etc.) 
4: signe ouvrant ou fermant 
1 ou 2 ; ponctuation 
3 : apostrophe 
N; nonibre 
W: nom propre 
w; nom cotnmun 

c: amalgame {du, des f au, aux, -) 
a; anaphores (ce, cet, ces, ...) 

*: code attribuS si aucune des categories precedentes n'est 
reconnue 

he texte d'exemple mentionne plus haut devient 

4W42d3dcvtfv^dw1w2pd3w3 26Ytfaw4v^ 
^dNw12w1pa*v^2w2dNNw61d3w3sw2w2dw1W2d^ 

d3w3pW2w2d0dw2pdw21dw1p4W43dw1w1w5pdw2p^ 
P 3dwLaJ24>M4lJMl WN2w2pav^2dW3v^s2v^2w2w4w2w1 pN WSpv^pNv^ppNwl 1 

m 

ttoe 6tape suivante consiste a identifier les structures 
linguistiques appeleee syntagmee nominaux dans la terminologie 
linguistique ou, plus s implement, groupes nominaux . 

L" ensemble des motifs syntaxiques qu'il est utile d 1 identifier 
const itue la grammaire d' analyse. Du fait que cette grammaire 
est commune k 1' ensemble des langues romanes, il est possible 
d 1 analyser un grand nonibre de langues en utilisant un m§me 
systeme d' extraction selon l f invention sans adaptation lourde. 



r 
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A titre d'exemple, une granonaire (simplify) peut avoir la 
forme suivante : 

(1) syntagma nominal -> determinant , groupe nominal ; W . 

(2) determinant -> d j d , 3 ; nombre ; c ; a 

(3) d 'le' ; i y l* e ' 9 ,dee ' ; * 1 ' 1 etC - 
(3i>is) c -> 'du' j 4 au' ; 'aux' ; etc 

(3ter) a -> -'ce' ,- »cette' ; 'ces' * * son ' > etc ~ 

(4) groupe nominal -> expression , groupe nominal - 

(5) expression ->w f p»w;w 

(6) p -> 'de' ; 'a' i 'pour' i 



f 



La fleche se dit « se r6Scrit », la virgule se dit « suivi 
de », le point -virgule exprime un « ou ». le point marque la 
fin de la rSgle. La regie (1) se lit « syntagme nominal se 
reecrit determinant suivi de groupe nominal ». 

Lea regies (3) et (6) sont dites regies terminales car elles 
font appels aux formes lexicales du lexigue des mots outils. 



La regie (4) est une regie recursive. Un groupe nominal peut 
done contenir une infinite d' expressions, lesguelles, selon 
la regie (S) sont soit de type wpw, eoit de type w. 

Les suites de categories grammatical es suivantes seront done 
recoiinues comme syntagme nominal : 

d w 

d w p w 

d w w 

d w w p w 

d 3 w w 



Sur le texte d'exemple, les groupes nominaux identifies h 
1-aide de cette grammaire ont soulignis : 
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«Cate>, i^une dee comedies musicales les plus longtenips a 1' affile, va 
tirer sa rgvgreagg apres vingt et une annees sur la scene londonienne . La 
gernigrs rgerggentatigg de cette guvre d'Andrew Lloyd Webber aura lieu le 
11 mai, jour de son 2ie anniversaire , apres quelques 9_o00 
representations , L'annonce a ete faite trois lours aprfcs la derniSre 
representation de starlight Express* , la seconde cooedie nmsieale la filus 
lonqtemps a l' affiche a Londres , apres dix-buit annees aur les £lancbes. 

La fin de «Cate» est un coup dur minnlercentaire pour le quartier de Covent 
Garden , oil eont regroupes la plupart des theatres l ondoniens, et qui a 
souffert d'une forte baisse de freguentation en 2001 . Depuis 1981, annee 
de son lancement , la comedie tmisicale a, depuis f ete interprets© devant 
plus de so mil lions de gpectateurs en 11 langues et dans 26 pays. 

(source Reuter) 

Cowme les groupes nominaux repr6sentent a peu pr§s 50 % du 
texte, il est necessaire de ne retenir que ceux dont la 
probabilit€ d'etre de vrais mots-clee du texte est la plus 
forte . 

Une Stape suivante peut consister & filtrer les groupes 
nominaux, Tous les groupes nominaux n'ont pas la mime capacit§ 
reffirentielle. Certains sont plus import ants que d'autres. 

m * 

Pour determiner quels sont les plus importants d'entre eux, le 
syst£me selon 1 1 invention valorise chaque groupe nominal en 
fonction d'un double critSre/ 1'un etatistique, 1' autre 



Les mote les plus frequents des groupes nominaux eont classes 
par ordre de frequence decroisaant (en tenant compte d'une 
approximation comme *com§die' = x com6dies'), soit dans le 
texte d'exemple : 



comedie 
musicale 



3 
3 
2 
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2 
2 
2 



SeulB les mots dont 1' occurrence depasse 1 sont conserves dans 
la liste. Les mote SliminSs ont done une valeur nulle. On 
ajoute a la valeur de chaque groupe. nominal (initialement 
fixie &0) r la valeur de l'occurrance des mots qu'll contient 
TiioinB 1. La valeur dee groupes nominaux devient : 



comedie musicale 
affiche 

affiche a Londres 

Cats 

etc- 



(3 - 1) + (3 1) * 4 
2-1 = 1 
2-1*1 
2-1 = 1 



Le critere syntax! que : 

Lorsque qu'un groupe nominal est ou couporte un nom propre, 
celui-ci prend un point de valeur supplfementaire, 0 sinon. 



eomSdie musicale 



affiche k Londres 



4 + 0 

1 + 0 

1 + 1 

1 + 1 



4 
1 
2 
2 



Avec cette valorisation, il est aisS de procSder au classement 
des groupes nominaux. Dans le texte d'exeiqple,. les groupes 
nominaux per<?us comme les plus import ants sont eoulignSs deux 
fois, les groupes d' importance eecondaire sont soulignSs une 
fois, tandis que les autres ont ete purement et simplement 
Slimin6s . 



, l'une des comSdiea, muaicalaa les plus longtemps a 1' affiche, va 
tirer ea reverence apree vingt et une annees eur la flcfene londonienne. La 
derniere representation de cette cuvxe d' Andrew Lloyd Webber aura lieu le 
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ouelque 9 OOP rep resentations 
la derniere representation de 
la plus longtemps a 
but le3 planches. 



11 mai, jovr de sou 21e *™ivgraalre, 
L'annonce a §te faite trois jours apre* 
cstarlight g*pre3s» , la |" pnrm<i F coff&di 
l'afficne a Londres, apres dix-huit 



La fin de «Cats> est un coup dur supplemwtaire pour le quartier de Co vg i 
^rden f c u 6 ont regroupes la plupart des theatres londoniens, et qui a 
souffert d'une forte baieee de frecpiantatlon en 2001. Depuis isei, annee 
de son lancet la coj^ — a, depuis, «ti interpretee deyant 
plue de 50 million* de speetateurs en 11 langues et dans 26 pays. 

(source Reuter) 
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Revendications 

1 Procede d' extraction d' informations dans un texte en 
langage naturel, par identification de motifs (patterns), 
caracterise en ce que 1' on effectue un codage des mots du 
texte en les comparant avec le contenu d'un lexique predefim 
contenant quelques dizaines de mots outils, et en ce que 1' on 
identifie ensuite des groupee nominaux en recber chant, parmi 
des sous-ensembles de la suite des mots codes ainsi obtenue, 
dee groupes de mots codes repondant a des regies syntaxiques 
prid^finies. 

2. Procede selon la revendication 1, caracterise en ce 
que le' codage des mote du texte s'effectue par evaluation de 
la fonction grammaticale de chaque mot en le comparant avec le 
contenu dudit lexique de mots outils, de facon a reperer les 
mots outils dans le texte et en ce que la fonction des mots 
d' usage, non reconnue comme mots outils, est deduite en 
comparant leur emplacement par rapport a 1 ' emplacement des 
mots reconnus comme mots outils. 

* 

* 

3. Procede selon l'une des revendications 1 ou 2, 
caracterise en ce que les groupes nominaux identifies sont 
ensuite valorises de facon a ne retenir que les groupes percus 
comme les plus importants en utilisant des criteres de 



i ■ 




4. Syst&ne d' extraction d' informations dans un texte en 
langage naturel , caract6rie6 en ce qu'il comprend : 

- une unitS d' entree pour recevoir ledit texte en 

langage naturel, 

- un f ichier lexique dans lequel eont enregietrgs des 

mots outils, 

- un processeur d' analyse reliS a ladite unit6 d' entree, 
an f ichier lexique et agence pour effectuer dans un 
premier temps le codage dee mots dudit texte en 
langage naturel par Evaluation de la fonction 
grammaticale de chaque mot en le comparant avec le 
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contenu dudit fichier lexique de mots outils, de fa<?on 
d'une part a reperer les. mots outils dans le texte et 
Bl ^valuer la fonction des mots d' usage, non reconnus 
comme toots outils, en comparant leur emplacement par 
rapport k 1' emplacement des mots reconnus comme mots 
outils, et dams un deuxiime tenpe une recherche, parmi 
des sous-ensembles de la suite de mots cod£s obtenue, 
des groupes de mote codes r^pondant a des regies 
syntaxiques prfid^finies, de fa?on a identifier des 
groupes nominaux, 
- une unit6 de sortie reliee audit processeur d' analyse 
pour recevoir les groupes de toots codes reconnus comme 
des motifs syntaxiques. 

5. Systeme selon la revendication 4, caracterise en ce 
que le processeur d' analyse j comprend en outre des moyens de 
valorisation des groupes dejmots cod€s retenus de fa<?on a ne 

retenir que les groupes pergus comme les plus important© t 

i 
i 

I 
i 

6. SystSme selon 1' une ides revendications 3 ou 4, 
caracterisS en ce que le processeur d' analyse comprend en 
outre des moyens de reconnaissance de la langue du texte re<?u 
dans 1'unitS d'entr&e. 

7. systSme selon l'une des revendications 4 i 6, 
caracterise en ce que le processeur d' analyse "comprend en 
outre des moyens de rSgularJisation du texte re?u dans l'unitfi 
d'entrSe de fa<;on a Sliminer les amalgames de signes. 
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Systeme d 1 extraction d 1 informations 
dans un texte en langage nature 1 



La presente invention conc&icnG un systeme d 1 extraction 
d ! inf ormations dans un texte en langage naturel, en vue de 
s^lectionner les mots ou les groupes de mots du texte qui 
decrivent le mieux les sujets abordes dans le texte. Ces mots 
ou groupes de mots sont appeles les "mots-cles" et sont 
notamment utilisables a des fins d 1 indexation du texte dans 
une base de donnees documentaire, en particulier pour le 
resum6 automat ique du texte, pour la categorisation ou toute 
autre tentative de representation de la connaissance . 

Les systdmes d f extraction d 1 inf ormations que I 1 on connait et 
qui tentent d'atteindre ces objectifs utilisent des methodes 
d 1 analyses de trois types : 

- les methodes d 1 analyse statistique qui tentent d'elire les 
mots du texte les plus representatif s en comptant leurs 
frequences d 1 apparition et en ne retenant que ceux dont la 
frequence n'est ni trop faible, ni trop forte; 

- les methodes d 1 analyse k thesaurus qui fonctionnent d'apres 
une representation pr^definie de la connaissance et qui sont 

basees sur la definition prealable d'un lexique structure de 

■ * - 

r6f#rence appel6 thesaurus. Cette definition est entierement 
manuelle et doit £tre operee dans chaque domaine de 
specialites; 

- les methodes d 1 analyse S reconnaissance de motifs (patterns) 
qui fonctionnent a 1 1 aide d f identifications statistiques de 
motifs (patterns) . 

Le f onctiormement comparatif de ces trois types de methodes 
d 1 analyse va Stre illustre ci-apres par l 1 analyse du texte 
suivant : 
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"«Cats», l'une des comedies musicales les plus longtemps a 1'affiche, va 
tirer sa reverence aprds vingt et une annees sur la sc§ne londonienne. La 
derniere representation de cette oeuvre d' Andrew Lloyd Webber aura lieu le 
11 mai, jour de son 21e anniversaire, apres quelque 9 000 representations. 
L'annonce a et£ faite trois jours apres la derniere representation de 
^Starlight Express*, la seconde com€die musicale la plus longtemps a 
1'affiche a Londres, apres dix-huit annees sur les planches. 

La fin de «Cats» est un coup dur supplementaire pour le quartier de Covent 
Garden, ou sont regroupes la plupart des theatres londoniens, et qui a 
souffert d'une forte baisse de f r€quentation en 2001. Depuis 1981, ann€e 
de son lancement, la com<§die rausicale a, depuis, ete interprets devant 
plus de 50 millions de spectateurs en 11 langues et dans 26 pays-" 

(source Reuter) 

Fonctionnement des methodes d 1 analyse statistique : 

Si l ! on considere leur approche de fagon caricaturale , les 
methodes d ! analyse statistique comptent les mots du texte pour 
ne retenir que ceux dont la frequence n'est ni trop faible ni 
trop forte en eliminant parfois les mots outils (articles, 
propositions, conjonctions, auxiliaires verbaux) , afin 
d'af finer les r<Ssultats. En ce qui conceme le texte propose 
ci-dessus, les mots "moyennement " frequents (sans prendre en 
consideration les mots outils) sont alors : 

affiche, annees, Cats, comedie, derniere, ete, longtemps, 
musicale et representation. 

Bien que le principal avantage des methodes d 1 analyse 
statistique reside dans une grande simplicity algorithmique, 
leur principal desavantage reside en la faible pertinence des 
r<§sultats. En effet, les mots "moyennement" frequents d f un 
texte sont rarement les plus representatif s . Ces methodes 
peuvent toutefois donner de meilleurs resultats sur des textes 
plus longs que le texte d'exemple ci-dessus. 
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D' autre part, du fait que le texte est decoupe en mots, c'est- 
a-dire en chaines de caracteres dont les delimiteurs sont des 
espaces, les liens semantiques qui peuvent relier des mots 
entre eux, comme par exemple les mots "comedie" et "musicale", 
sont perdus , 

Fonctionnement des methodes d 1 analyse a thesaurus : 

Ces methodes sont basees sur la definition prealable d'un 
lexique structure de reference appele thesaurus, cette 
definition etant, comme on 1 1 a mentionne plus haut, 
entierement manuelle et devant etre operee dans chaque domaine 
de speciality. 

Imaginons par exemple le thesaurus suivant : 

spectacle — > comedie (s) -> dramatique 

— > musicale — > Cats 

-> Les dix commandements 

-» savante 

Avec ce type de methodes, il est toujours possible 
d' identifier les mots du texte source qui se retrouvent 
exactement sous la meme forme dans le thesaurus. L f avantage de 
ces methodes est que 1 1 on peut etre stir que les mots 
identifies correspondent & une r<Salite culturelle ou 
scientifique etablie et repertoriee. D 1 autre part, il est 
possible de deduire un mot federateur comme "spectacle" qui ne 
fait pas partie du texte initial, mais qui le caracterise 
correctement . En revanche, 1 1 inconvenient majeur de ces 
methodes est qu f il faut perpetuellement mettre a jour le 
thesaurus pour qu ! il conserve sa pertinence, ce qui entraine 
des frais de maintenance import ant s . Un autre inconvenient 
important de ces methodes reside dans le fait qu f un thesaurus 
constitu6 pour analyser des textes dans le domaine de la 
chimie ne pourra pas etre utilise pour des textes dans le 
domaine de 1 1 electronique, par exemple. De plus, dans le cas 
oCL le thesaurus n'est pas exhaustif, certaines expressions qui 
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peuvent §tre tr£s pertinentes ne seront pas recorxnues conmie 
telles . 

Fonctionnement des methodes d' analyse a reconnaissance de 
motifs : 

Les methodes d f analyse a reconnaissance de motifs que l f on 
connait sont des methodes d' identification statistiques de 
motifs qui, bien qu'elles ameliorent considerablement les 
methodes d 1 analyse statistique mentionnees plus haut, en 
conservant la trace de 1 1 appariement des mots, comme par 
exemple des termes "comedie" et "musicale" de 1 1 exemple ci- 
dessus, ne permettent pas d 1 analyser de fa<?on correct e des 
textes courts. En effet, les methodes statistiques ont besoin 
de quantity pour fonctionner correctement . 

Par exemple, les motif s-cles du texte d' exemple seront obtenus 
par comparaisons approximatives de sequences plus ou moins 
longues entre elles. Les mots outils (le, la, les, ...) ne 
comptent pas, et les sequences sont formees a partir d'un mot, 
plus ou moins trois mots : 

Cats 

Cats comedies 

Cats comedies musicales 

Cats comedies musicales longtemps 

comedies 

comedies musicales 

comedies musicales longtemps 

comedies musicales longtemps affiche 

musicales 

musicales longtemps 
musicales longtemps affiche 
musicales longtemps affiche tirer 
^2 c» ••■ 

II suffit ensuite de regrouper les differentes sequences 
obtenues, par approximation sur la forme (par exemple 
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« comedies » et « comedie ») f et de compter les expressions 
cotnbinees les plus frequentes comme « comedies musicales ». 

Le but de la present e invention est de proposer un systSme 
pour l f extraction d 1 informations dans un texte en langage 
naturel permettant de remedier aux inconvenients des methodes 
d 1 analyses connues, en permettant notamment une analyse de 
bonne qualite de textes aussi bien courts que longs. 

Ce systSme utilise une m^thode d 1 analyse par identification de 
motifs (patterns) non pas purement statistique, mais egalement 
syntaxique . 

En resume, le systeme propose convertit les mots du texte en 
suite de categories syntaxiques, puis confronte des sous- 
ensembles du texte avec des motifs syntaxiques predefinis, de 
fagon a identifier des groupes nominaux sans prejuger de la 
valeur des mots qui composent ces groupes. 

Ainsi, les mots « pomme de terre » ou « dlectronique de 
puissance » ne sont pas important par eux-m§mes, mais sont 
importants par rapport au texte ou ils apparaissent . Dans un 
texte de nature gen^rale « electronique de puissance » peut 
n'etre qu'un exemple, pas un mot-cle du texte, mais sera 
probablement mot-cle dans un texte traitant des transistors. 
C'est le contexte qui fait le mot-cle, et le systdme selon la 
presente invention comporte en quelque sorte un analyseur de 
contextes syntaxiques. De m§me, le mot "porte" peut etre 
reconnu comme nominal dans certains textes a cause de sa 
position par rapport aux autres mots du texte, ou simplement 
comme mot structurel dans d 1 autres textes. 

Une methode d f analyse par identification de motifs est 
proposee dans le document US 4,864,501. Le proced<§ decrit dans 
ce document anterieur utilise, pour le codage des mots du 
texte en vue de 1 1 identification des motifs, un dictionnaire 
contenant les mots radicaux (base forms) . Outre le fait que ce 
dictionnaire est tres volumineux puisqu'il contient plusieurs 
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dizaines de milliers d' entrees, le procedd necessite des 

algorithmes complexes de radicalisation des mots, specifiques 

a chaque langue, pour retomber sur des mots du dictionnaire, 

ainsi qu 1 eventuellement des tables specifiques de 

prefixes /suffixes pour traiter les cas d'erreurs 

d 1 or thographe , etc. II s'agit par consequent d'un procede tres 

lourd a mettre en oeuvre et a utiliser. 

Le systeme d' extraction selon la presente invention permet de 
remedier a ces inconvenients . 

A cet effet, l 1 invention concerne un precede d 1 extraction 
d' informations dans un texte en langage naturel, par 
identification de motifs (patterns) , selon lequel on ef fectue 
un codage des mots du texte en les comparant avec le contenu 
d'un lexique predefini contenant quelques dizaines de mots 
outils, et selon lequel on identifie ensuite des groupes 
nominaux en recherchant, parmi des sous-ensembles de la suite 
des mots codes ainsi obtenue, des groupes de mots codes 
repondant a des regies syntaxiques predefinies. 

L 1 invention concerne egalement un systeme d' extraction 
d' informations dans un texte en langage naturel comprenant : 

une unite d' entree pour recevoir ledit texte en 



un fichier lexique dans lequel sont enregistr^s des 
mots outils, 

un processeur d' analyse relie a ladite unite d f entree, 
au fichier lexique et agence pour effectuer dans un 
premier temps le codage des mots dudit texte en 
langage naturel par evaluation de la fonction 
grammaticale de chaque mot en le comparant avec le 
contenu dudit fichier lexique de mots outils, de fagon 
d'une part & reperer les mots outils dans le texte et 
a evaluer la fonction des mots d 1 usage, non reconnus 
comme mots outils, en comparant leur emplacement par 
rapport a 1 1 emplacement des mots reconnus comme mots 
outils, et dans un deuxieme temps une recherche, parmi 



langage naturel , 
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des sous -ensembles de la suite de mots codes obtenue, 
des groupes de mots codes repondant a des regies 
syntaxiques predefinies, de fagon & identifier des 
groupes nominaux, 
- une unite de sortie reliee audit processeur d' analyse 
pour recevoir les groupes de mots codes reconnus comme 
des motifs syntaxiques. 

Le systeme d ! extraction selon l 1 invention evalue la fonction 
grammaticale des mots du texte & analyser a 1 f aide d'un 
lexique predefini contenant les quelques dizaines de mots 
outils propres a chaque langue et qui sont essentiellement les 
articles, les prepositions, les conjonctions et auxiliaires 
verbaux. La fonction des autres mots est ensuite deduite grlce 
a 1 Emplacement des seuls mots outils. Du fait que les mots 
outils d'un texte representent couramment 40 a 50 % des mots 
de ce texte, ceux-ci sont done toujours assez nombreux pour 
permettre 1' evaluation des autres mots. Ensuite, seules les 
parties du texte dont la grammaire est identifiee comme mots- 
cles possibles sont retenues. 

Les avantages du systeme d 1 extraction selon 1 ! invention sont 
nombreux. En particulier, le lexique de mots outils utilise 
par le systeme est incomparablement plus leger que les 
dictionnaires contenant plusieurs milliers de mots 
qu'utilisent les systemes connus . On relevera, d' autre part, 
qu'aucune intervention humaine n'est necessaire pour la 
determination des mots-cles, que le systeme peut fonctionner 
pour des textes de langues diverses et que, mis a part le 
lexique des mots outils, il ne necessite aucun autre lexique. 
De plus, du fait que la valeur semantique et grammaticale des 
mots outils est fixe et n ' evolue pratiquement jamais sur 
plusieurs decennies, la maintenance du lexique est des plus 
reduites. En revanche, la valeur des autres mots, que l f on 
peut appeler les mots d 1 usage (verbes, noms, adjectifs) , 
evolue sans cesse dans le temps, en fonction des usages, de 
Involution des metiers ou des sciences, ou simplement en 
fonction de l'actualite. Du fait que le systeme de la presente 
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invention ne presuppose rien sur la valeur des mots d 1 usage, 
il fonctionne de fagon identique dans tous les domaines, 
litteraire, technique ou scientif ique, alors que les systemes 
qui utilisent les methodes connues doivent toujours etre 
enrichis avec des lexiques specialises, fabriques bien souvent 
sur mesure. Enfin, ce systeme d 1 extraction permet d'adresser 
de nouvelles langues incomparablement plus rapidement que 
n'importe quel autre systdme propose jusqu ! ici. 

D 1 autre part, contrairement aux systemes utilisant des 
methodes d' analyse statistique dans lesquelles la frequence 
d f apparition des mots est un critere de selection, ce qui 
suppose que le texte soit suffisamment long, le systeme selon 
1' invention n'accorde a la frequence d 1 apparition des mots 
qu'une importance subalterne et fonctionne aussi bien pour des 
textes longs de plusieurs dizaines de pages que pour des 
textes courts de quelques lignes. 

On va decrire ci-apres, a titre d'exemple, un systeme 

d' extraction d 1 informations selon 1 T invention dans un texte en 

langage naturel, en se r^ferant aux dessins, sur lesquels : 

- la fig. 1 est un schema-bloc du systeme d' extraction selon 
1 1 invention; 

- la fig- 2 est un schema-bloc des etapes d'un mode 
d 1 execution du proced<§ selon 1' invention, 

L 1 utilisation d'un modele syntaxique requiert de reconnaltre 
la langue du texte analyse. C f est done naturellement la 
premiere operation qu ! effectue le systeme d f extraction selon 
1' invention. Cette reconnaissance de la langue peut etre basee 
sur des cri teres purement statist iques de cooccurrence de 
lettres. La reconnaissance des langues, par exemple anglais, 
espagnol, frangais, portugais, allemand ou italien, permet 
d'orienter les analyses qui seront realisees en aval. 
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L 1 etape suivante est une <§tape de profilage du texte qui 
permet d 1 identifier les lignes de texte (paragraphes) 
comportant line information linguistique, et d'operer des 
regroupement s de paragraphes. Cette operation est 
particulierement utile pour les textes structures (avec 
titres, sous-titres, etc.), car elle permet de regrouper des 
paragraphes de fagon coherente . Elle est inutile pour des 
textes courts. 

L 1 etape suivante consiste en une operation de regularisation 
du texte au cours de laquelle il s f agit d'eliminer les 
amalgames de signes, comme par exemple separer les caracteres 
typographiques des caracteres alphabet iques . II sera par 
exemple utile de reconnaitre la chaine "mot," comme le terme 
"mot" suivit de " , " / alors que la chaine "1,5" devra §tre 
reconnue comme un nombre . 

Dans le texte d 1 exemple, cette etape revient a separer les 
caracteres typographiques (" , " , " 1 " et " . " ) des autres mots 
par des espaces blancs. Le texte d 1 exemple devient alors : 

"« Cats » , T une des comedies musicales les plus longtemps a I ' affiche , va tirer 
sa reverence apres vingt et une ann§es sur la scene londonienne . La derniere 
representation de cette oeuvre d ' Andrew Lloyd Webber aura lieu le 1 1 mai , jour 
de son 21 e anniversaire , apres quelque 9 000 representations . L 1 annonce a §te 
faite trois jours apres la derniere representation de « Starlight Express » , la 
secohde cdm6die musicale la plus longtemps & 1 ' affiche a Londres , apres dix - 
huit ann§es sur les planches . 

La fin de « Cats » est un coup dur supplemental pour le quartier de Covent 
Garden , ou sont regroupes la plupart des theatres londoniens t et qui a souffert d 1 
une forte baisse de frequentation en 2001 . Depuis 1981 , annee de son 
lancement , la comedie musicale a , depuis , ete interprets devant plus de 50 
millions de spectateurs en 1 1 langues et dans 26 pays . " 

L 1 etape suivante, qui constitue une etape cle du systeme, 
consiste a determiner la categorie de chaque mot . GrSce au 
lexique restreint des mots outils, les mots du texte sont 
codes selon des categories grammaticales attributes en 
fonction de la valeur syntaxique des mots. Les mots outils du 
lexique sont dans un premier temps reconnus dans le texte, 
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puis la fonction des autres mots du texte est deduite en 
fonction de leur emplacement par rapport aux mots outils deja 
reconnus . 

Ainsi, si 1 1 on adopte par exemple les categories suivantes : 

s: mot de structure (mot outil non utile pour la suite de 

1 1 analyse) 
d: determinant (le, la, les, etc.) 
p: preposition (de, en, par, etc.) 
4 : signe ouvrant ou f ermant 
1 ou 2 : pone tuat ion 
3 : apostrophe 
N : nombre 
W: nom propre 
w: nom commun 

c: amalgame (du, des, au, aux, ...) 
a: anaphores (ce, cet, ces, ...) 

*: code attribue si aucune des categories pr<§cedentes n'est 
reconnue 

Le texte d 1 exemple mentionne plus haut devient : 

4W42d3dcw3w4dw1 W2pd3w32sw2aw4v^w1 pdw2pdw2w4 1 dw3w5paw2p3WWWw2 
w1 d N w1 2 w1 pa*w52w2dNNw5 1 d 3 w3 s w2 w2 d w1 w2 d w3 w5 p 4 W W 4 2 d w3 w3 w4 d w1 w2 p 
d3w3pW2w2d0dw2pdw2 1dw1 p4W4sdw1 w1 w5pdw2pWW2ssw3dw2cw2w32pssw2 
p3dw2w2pw4pN 1 W N 2 w2 p a w3 2 d w3 w4 s 2 w2 2 w2 w4 w2 w1 p N w2 p w3 p N w2 p p N w1 1 

Une etape suivante consiste a identifier les structures 
linguistiques appelees syntagmes nominaux dans la terminologie 
linguistique ou, plus simplement, groupes nominaux. 

L ! ensemble des motifs syntaxiques qu ! il est utile d' identifier 
constitue la grammaire d 1 analyse. Du fait que cette grammaire 
est commune a l 1 ensemble des langues romanes, il est possible 
d ! analyser un grand nombre de langues en utilisant un m§me 
systeme d f extraction selon 1 1 invention sans adaptation lourde. 
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A titre d'exemple, une grammaire (simplifiee) peut avoir la 
forme suivante : 

(1) syntagme nominal -> determinant , groupe nominal ; W . 

(2) determinant -> d ; d , 3 ; nombre ; c ; a 

(3) d -> x le' ; x la' ; *les' ; 'des' ; % l f ; etc.. 
(3bis) c -> *du' ; *au' ; 'aux ; ; etc... 

(3ter) a -> x ce' ; l cette' ; x ces' ; x son' ; etc... 

(4) groupe nominal -> expression , groupe nominal . 

(5) expression -> w , p , w ; w . 

(6) p -> *de' ; 'a' ; *pour' ; 'sans' ; etc... 

La fleche se dit « se r<§ecrit », la virgule se dit « suivi 
de », le point -virgule exprime un « ou », le point marque la 
fin de la regie. La regie (1) se lit « syntagme nominal se 
reecrit determinant suivi de groupe nominal ». 

Les regies (3) et (6) sont dites regies terminales car elles 
font appels aux f ormes lexicales du lexique des mots outils . 

La regie (4) est une regie recursive. Un groupe nominal peut 
done contenir une infinite d' expressions, lesquelles, selon 
la regie (5) sont soit de type wpw, soit de type w. 

Les suites de categories grammaticales suivantes seront done 
reconnues comme syntagme nominal : 

d w 

d w p w 
d w w 
d w w p w 
d 3 w w 
etc... 

Sur le texte d'exemple, les groupes nominaux identifies a 
l'aide de cette grammaire ont ete soulignes : 
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«Cats», l'une des comedies tmisicales les plus longtemps a 1'affiche, va 
tirer sa reverence apres vingt et une annees sur la scene londonienne . La 
dernilre representation de cette oeuvre &' Andrew liloyd Webber aura lieu le 
11 max, jour de son 21e anniversaire , apres quelques 9 000 
representations . L' annonce a 6te faite trois jours aprds la derni£re 
representation de oc Starlight Express *, la seconde comedie musicale la plus 
long temps a I' affiche a Londres , aprds dix-huit annees sur les planches . 

La fin de «Cats» est un coup dur supplementaire pour le quart ier de Covent 
Garden, ou sont regroupes la plupart des theatres londoniens , et qui a 
souffert d'une forte baisse de f r€quentation en 2001 . Depuis 1981, annee 
de son lancement , la come* die musicale a, depuis, €te interpreted devant 
plus de 50 millions de spectateurs en 11 langues et dans 26 pays . 

(source Reuter) 

Comme les groupes nominaux represent ent a peu pres 50 % du 
texte, il est necessaire de ne retenir que ceux dont la 
probability d'etre de vrais mots-cles du texte est la plus 
forte . 

Une etape suivante peut consister a filtrer les groupes 
nominaux. Tous les groupes nominaux n'ont pas la meme capacite 
referentielle. Certains sont plus importants que d'autres. 
Pour determiner quels sont les plus importants d'entre eux f le 
systeme selon 1 1 invention valorise chaque groupe nominal en 
fonction d'un double critere, 1'un statistique, 1' autre 
syntaxique . 

Le critere statistique : 

Les mots les plus frequents des groupes nominaux sont classes 
par ordre de frequence decroissant (en tenant compte d'une 
approximation comme * comedie' = "comedies'), soit dans le 

* 

texte d ! exemple : 

comedie 3 
musicale 3 
affiche 2 
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annees 2 
Cats 2 
derniere 2 
representation 2 

Seuls les mots dont 1 ' occurrence depasse 1 sont conserves dans 
la liste. Les mots elimines ont done une valeur nulle. On 
ajoute §l la valeur de chaque groupe nominal (initialement 
fixee a 0) , la valeur de 1 ' occurrence des mots qu'il contient 
moins 1 . La valeur des groupes nominaux devient : 



comedie musicale 
af f iche 

affiche a Londres 
Cats 

^5 ti c» »■» 

Le critere syntaxique 



(3 - 1) + (3 - 1) = 4 
2-1 = 1 
2-1 = 1 
2-1 = 1 



Lorsque qu'un groupe nominal est ou comporte un nom propre, 
celui-ci prend un point de valeur supplementaire, 0 sinon. 



comedie musicale 
affiche 

affiche a Londres 
Cats 

^3 1 C «»• 



4 + 0=4 

1 + 0 = 1 

1 + 1 = 2 

1 + 1 = 2 



Avec cette valorisation, il est aise de proceder au classement 
des groupes nominaux. Dans le texte d'exemple, les groupes 
nominaux percjus comme les plus important s sont soulignes deux 
fois, les groupes d' importance secondaire sont soulignes une 
fois, tandis que les autres ont ete purement et simplement 
elimines . 



«Cats», I'une des comedies musicales les plus longtemps a 1' affiche/ va 
tirer sa reverence apres vingt et une armies sur la scene londonienne . La 
dernidre representation de cette oeuvre d' Andrew Lloyd Webber aura lieu le 



WO 2004/010324 



PCT/CH2003/000490 



- 14 - 

11 mai, jour de son 21e anniversaire , aprds quelque 9 000 representations . 
L'annonce a ete faite trois jours apres la derniere representation de 
^ Starlight Express :*, la seconde com^die musicale la plus longteraps a 
l'affiche a Londres , apres dix-huit annees sur les planches. 

La fin de « Cats » est un coup dur supplement aire pour le quart ier de Covent 
Garden, ou sont regrouped lp^plupart des theatres londoniens , et qui a 
souffert d'une forte baisse cle f requentation en 2001. Depuis 1981, ann6e 
de son lancement, la comedie musicale a, depuis, ete interpretee devant 
plus de 50 millions de spectateurs en 11 langues et dans 26 pays. 

(source Reuter) 
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Re vend i c a t i on s 

1. Precede d 1 extraction d ! informations dans un texte en 
langage naturel, par identification de motifs (patterns), 
caracterise en ce que l f on effectue un codage des mots du 
texte en les comparant avec le contenu d'un lexique predefini 
contenant quelques dizaines de mots outils, et en ce que 1 1 on 
identifie ensuite des groupes nominaux en recherchant, parmi 
des sous -ensembles de la suite des mots codes ainsi obtenue, 
des groupes de mots codes repondant a des regies syntaxiques 
pr6def inies . 

2. Proc^de selon la revendication 1, caracterise en ce 
que le codage des mots du texte s 1 effectue par evaluation de 
la fonction grammaticale de chaque mot en le comparant avec le 
contenu dudit lexique de mots outils, de fagon a reperer les 
mots outils dans le texte et en ce que la fonction des mots 
d f usage, non reconnus comme mots outils, est deduite en 
comparant leur emplacement par rapport a 1 1 emplacement des 
mots reconnus comme mots outils. 

3* Procede selon l'une des revendi cat ions 1 ou 2 , 
caracterise en ce que les groupes nominaux identifies sont 
ensuite valorises de fagon a ne retenir que les groupes pergus 
comme les plus important s en utilisant des criteres de 
valorisation predefinis. 

4. Systeme d' extraction d' informations dans un texte en 
langage naturel, caracterise en ce qu'il comprend : 

- une unitS d' entree pour recevoir ledit texte en 
langage naturel, 

- un f ichier lexique dans lequel sont enregistres des 

mots outils, 

- un processeur d' analyse relie a ladite unite d' entree, 
au f ichier lexique et agence pour effectuer dans un 
premier temps le codage des mots dudit texte en 
langage naturel par Evaluation de la fonction 
grammaticale de chaque mot en le comparant avec le 
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contenu dudit fichier lexique de mots outils, de fagon 
d'une part a reperer les mots outils dans le texte et 
a evaluer la fonction des mots d 1 usage, non reconnus 
comme mots outils, en comparant leur emplacement par 
rapport a 1 1 emplacement des mots reconnus comme mots 
outils, et dans un deuxieme temps une recherche, parmi 
des sous -ensembles de la suite de mots codes obtenue, 
des groupes de mots codes repondant k des regies 
syntaxiques predefinies, de fagon a identifier des 
groupes nominaux, 
- une unite de sortie reliee audit processeur d' analyse 
pour recevoir les groupes de mots codes reconnus comme 
des motifs syntaxiques. 

5. Systeme selon la revendication 4, caracterise en ce 
que le processeur d' analyse comprend en outre des moyens de 
valorisation des groupes de mots codes retenus de fagon a ne 
retenir que les groupes pergus comme les plus importants. 

6. Systeme selon l'une des revendications 3 ou 4, 
caracterise en ce que le processeur d' analyse comprend en 
outre des moyens de reconnaissance de la langue du texte regu 
dans 1' unite d' entree. 

7. Systeme selon l'une des revendications 4 & 6, 
caracterise en ce que le processeur d' analyse "comprend en 
outre des moyens de regularisation du texte regu dans 1' unite 
d' entree de fagon a eliminer les amalgames de signes. 
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Agence Brevets et Marques, Ganguillet & Humphrey, 16, 
Avenue du Theatre, Case postale 2065, CH-1002 Lausanne 
(CH). 

(81) Etats designes (national) : AE, AG, AL, AM, AT, AU, AZ, 
BA, BB, BG, BR, BY, BZ, CA, CH, CN, CO, CR, CU, CZ, 
DE, DK, DM, DZ, EC, EE, ES, FI, GB, GD, GE, GH, GM, 
HR, HU, ID, IL, IN, IS, JP, KE, KG, KP, KR, KZ, LC, LK, 
LR, LS, LT, LU, LV, MA, MD, MG, MK, MN, MW, MX, 
MZ, NI, NO, NZ, OM, PG, PH, PL, PT, RO, RU, SC, SD, 
SE, SG, SK, SL, SY, TJ, TM, TN, TR, TT, TZ, UA, UG, 
US, UZ, VC, VN, YU, ZA, ZM, ZW. 

(84) Etats designes (regional) : brevet ARIPO (GH, GM, KE, 
LS, MW, MZ, SD, SL, SZ, TZ, UG, ZM, ZW), brevet 
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(54) Title: SYSTEM FOR EXTRACTING INFORMATION FROM A NATURAL LANGUAGE TEXT 



(54) Titre : SYSTEME D 'EXTRACTION D' INFORMATIONS DANS UN TEXTE EN LANGAGE NATUREL 





Reconnaissance de la langue 






Profilage du texte 




; 


II III 


Ftegularisation du texte 




~L 


4 A3 


Codage du texte 


4/01032- 


i 


Identification des motifs 
syntaxiques 




; 


O 


Filtrage des groupes 
nominaux 





(57) Abstract: The invention relates to a system for extracting information from 
a natural language text. According to the invention, the extraction method con- 
sists in: encoding the words from the text by comparing said words with the con- 
tents of a lexicon of empty words (essentially articles, prepositions, conjunctions 
and verbal auxiliaries); and, subsequently, identifying noun phrases by searching 
for groups of encoded words that adhere to the pre-defined syntactic rules from 
among the subsets from the series of encoded words thus obtained. 

(57) Abrege : Le precede" d' extraction effectue un codage des mots du texte en les 
comparant avec le contenu d'un lexique de mots outils (essentiellement articles, 
prepositions, conjonctions et auxiliaries verbaux), puis identifie des groupes no- 
minaux en recherchant, parmi des sous-ensembles de la suite des mots cod6s ainsi 
obtenue, des groupes de mots cod6s repondant a des regies syntaxiques preclefi- 
nies. 
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eurasien (AM, AZ, BY, KG, KZ, MD, RU, TJ, TM), brevet 
europeen (AT, BE, BG, CH, CY, CZ, DE, DK, EE, ES, FI, 
FR, GB, GR, HU, IE, IT, LU, MC, NL, PT, RO, SE, SI, SK, 
TR), brevet OAPI (BF, BJ, CF, CG, CI, CM, GA, GN, GQ, 
GW, ML, MR, NE, SN, TD, TG). 

Publiee : 

— avec rapport de recherche Internationale 

— avant V expiration du delai prevu pour la modification des 
revendications, sera republiee si des modifications sont re- 
cues 



(88) Date de publication du rapport de recherche 

Internationale: 1 avril 2004 

En ce qui concerne les codes a deux lettres et autres abrevia- 
tions, se referer aux "Notes explicatives relatives aux codes et 
abreviations" figurant au debut de chaque numero ordinaire de 
la Gazette du PCT. 
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PCT 

NOTIFICATION DE L f ENREGISTREMENT 
D'UN CHANGEMENT 

(rdgle 92bi$.1 et 
Instruction administrative 422 du PCT) 



Date d* expedition (jour/more/annee) 
17 aout 2004 (17.08.2004) 



B eTena ic u du dossier du deposant ou du mandatafre 
B-3851-WO 



Demande intemationale no 
PCT/CH2OO3/0OO490 



ExpfrJlteur: le BUREAU INTERNATIONAL 



Desdnatalre: 

GANGUILLET, Cyril 

Abrema Agence Brevets et Marques 

Ganguillet 8i Humphrey 

16, Avenue duThSfitre 

Case postale 2065 

CH-1 002 Lausanne 

SUISSE 



NOTIFICATION IMPORTANT^ 



Date du depot international (jour/mois/annee) 

18 juiliet 2003 (18,07.2003) 



1. Les renselflnements suivants $taient enreojstres en ce qui concern©: 
|~X| le deposant Q I'lnventeur ' Q le mandataire Q te representant commun 


Nometadresse 

ALBERT-INC. SA 
Rue Du Simplon 25 
CH-1 008 Lausanne 
SUISSE 

• 


Nationality (nom de i'Rat) 
CH 


Domicile (nom de i rot) 
CH 


no de telephone 


no de telecopieur 


no de teleimprimeur 


2* Le Bureau international notffie au deposant que le chanaement indique* oi-apres a ete enregistre en ce qui conceme: 
[X] lapersonne Q le nom Q I'adresse Q ta nationality Q le domicile 


Nom et adresee 

GO ALBERT FRANCE SARL 
12, rueVivienne 
F-75002 Paris 
FRANCE 

■ 


Nationality (nom de I'Etat) 

FR 


Domicile (nom de I'Etat) 
FR 


no de telephone 


no detelecopieur 


no de teiaimprimeur 


3. Observations complementaires, le cas echeant: 

i 


4w 


Un 
X 


e cople de cette notification a et$ envoyee: 
a Pofflce recepteur 

a ('administration chars ee de la recherche intar national© 

a 1'adrninistration charge* da I'examen prilimlnalre International 


X aux offices design&s concemes 
aux offices elus concernes 
| autre destmatalre: 



Bureau international de J'OMPI 
34, chemin des Cokxnbettes 
1211 Geneve 20, Suisse 



no da telecopieur: (41 <22) 338.89.85 



Fonctionnaire autorise: 



no de telephone; (41 -22] 



»S^t$Ev|LLARD (Fax 338-8^95) 



Formulaire PCT/IB/306 (mars 1994) 



008396799 



CONTRAT 



DE CESSION 



DE DROITS DE PROPRIETE INTELLECTUELLE 



entre 



ALBERT-Inc. SA, societe de droit Suisse ayant son siege a la rue du Simplon 25, 1006 
Lausanne (Suisse), representee par M. Jacques Rosset, president, et Mme Beth Krasna, 
directrice generate 

d'une part, 

et 



GO-ALBERT France, societe a responsabilite limitee, au capital social de 100.000 €, dont le 
siege social est sis 12 Rue Vivienne, 75002 Paris, immatriculee au Registre du commerce et 
des societes de Paris sous le numero RCS B 437 879 869, representee par Madame Beth 
KRASNA et Monsieur Alain BEAUVIEUX, co-gerants, 

ainsi que 

M. Alain BEAUVIEUX, n6 le 13 juillet 1959 a Bagneux (France), domicilie 37 Avenue 
Daumesnil - 94160 SAINT MANDE, France 

M. Eric FOURBOUL, ne le 16 Janvier 1967 a Villeneuve Saint Georges (France), domicilie 
67 Rue Lunaret - 34000 MONTPELLEER, France 

d' autre part. 

* * * 
* * 
* 




PREAMBULE 

Albert-Inc. SA detient dans ses actifs differents brevets, marques et autres droits de propriete 
intellectuelle dans le domaine des nouvelles technologies. 

Par convention du 2 et 3 septembre 2003, intitulee « Protocole de cession des parts sociales 
sous conditions suspensives », la societe Albert-Inc. SA s'est engagee a ceder la totalite de ses 
parts dans la societe Go Albert France a M. Alain Beauvieux et a M. Eric Fourboul. 

Cette convention est soumise a la condition suspensive de Fobtention d'un pret maximum de 
400.000 Euros d'une duree maximum de 4 mois et au taux maximum de 8 % par M. Alain 
Beauvieux et M. Eric Fourboul (article 8 du Protocole de cession des parts sociales sous 
conditions suspensives). 

Afin de permettre a ces derniers de poursuivre Factivite d' Albert, Albert-Inc. SA consent a 
ceder a Go Albert France les droits de propriete intellectuelle qu'elle detient. 

La remuneration fixee d' entente entre les parties tient compte de la phase de liquidation dans 
laquelle Albert-Inc. SA est entree et de l'objectif principal de 1' operation qui vise a maintenir 
Factivite de la societe Go Albert France. 

Ceci etant precise, les parties conviennent ce qui suit : 
ARTICLE 1 : Objet de la vente 

Pour les besoins du present contrat, on entend par Droits de Propriete Intellectuelle l'ensemble 
des marques, denominations, logos, noms de domaine, brevets, droits d'auteur, savoir-faire et 
autres droits similaires, notamment sur les programmes informatiques qu'ils fassent ou non 
l'objet de depots, demandes d'enregistrement ou enregistrements. 

La societe Albert-Inc. SA cede a la societe Go Albert France tous les droits de propriete 
intellectuelle qu'elle detient, ainsi que les droits qui y sont attaches, notamment tous droits de 
priorite, sans aucune restriction de duree ni de territoire. 

II s'agit en particuiier des marques et brevets dont la liste figure en Annexe 1. 



ARTICLE 2 : Prix de vente 

a) La societe Go Albert France verse a la societe Albert-Inc. SA le montant de un euro (EUR 
1,-) au titre de contre-prestation de la cession des droits de propriete intellectuelle, ainsi 
que des droits qui y sont attaches. 



b) Au cas ou MM. Beauvieux et Fourboul et/ou Go Albert France vendent ou cedent 
Factivite d' Albert et/ou la Propriete Intellectuelle acquise d' Albert-Inc. SA, sous quelque 
forme que ce soit, pour un montant superieur a 10 millions d'euros dans un delai de 5 ans 
des la signature de la presente convention, ces derniers s'engagent solidairement entre eux 
a verser un montant correspondant au 10 % du prix de vente ou de cession des activites 
d' Albert et/ou la Propriete Intellectuelle aux actionnaires et porteurs d' obligations 
d' Albert-Inc. SA a la date de FAssemblee generate ordinaire du 2 septembre 2003. 



/ 



t 

MM. Beauvieux et Fourboul s'engagent a tenir informe le representant des actionnaires et 
porteurs d' obligations d' Albert-Inc. SA, en la personne de Me Jean-Philippe Rochat, a 
Lausanne, de toute vente ou cession d'activite ou de Propriete Intellectuelle intervenant 
dans les 5 ans, ainsi que des modalites auxquelles elle intervient. En outre ils s'engagent a 
lui adresser chaque annee pendant ces 5 ans une copie signee des comptes annuels. 



Au cas ou les conditions posees ci-dessus sont realisees, le montant dGau^ actionnaires et 
porteurs de bons sera verse a Me Jean-Phillippe Rochat, a chargo^pour lui de verser ce 
montant a qui de droit. yds 

En tout temps, les actionnaires, par l'intermeaiaire de leur representant, peuvent obtenir de 
MM. Beauvieux et Fourboul et/ou de Go Albert France toute information relative a la 
vente ou a la cession de l'activite et/ou de la Propriete Intellectuelle. 




ARTICLE 3 : Garanties 

Au jour de la signature du present contrat de cession, il n'existe, a la connaissance d' Albert- 
Inc. SA, pas de contestation des droits de propriete intellectuelle vendus. Aucune licence n'a 
ete concedee pour 1' utilisation de ces droits de propriete intellectuelle, a l'exception : 

- des licences concedees par Albert-Inc. SA a ses filiales Go Albert France , Go Albert UK, 
Go Albert USA, 

- des licences concedees par Albert-Inc. SA et les filiales precitees aux utilisateurs finaux. 

Les droits de propriete intellectuelle sur les developpements et creations realises par les 
filiales de Albert-Inc. SA ont ete cedes a Albert-Inc. SA. 

Albert-Inc. SA ne saurait etre tenue pour responsable de contestations qui pourraient etre 
soulevees par des tiers au sujet des droits de propriete intellectuelle vendus. 

Albert-Inc. SA ne donne aucune garantie de la valeur des droits de propriete intellectuelle 
vendus. 

Albert-Inc. SA ne donne aucune garantie relative au potentiel d' utilisation des droits de 
propriete intellectuelle vendus. Elle ne garantit en particulier pas que les droits de propriete 
intellectuelle vendus sont necessaires et suffisants a l'exercice de l'activite commerciale 
actuellement deployee par Go Albert France. 

ARTICLE 4 : Condition suspensive 

Le present contrat de cession est soumis a la condition suspensive de la realisation de la 
cession de parts sociales prevues dans la convention principale liant Albert-Inc. SA et MM. 
Alain Beauvieux et Eric Fourboul. 



ARTICLE 5 : Moment de la cession 



La cession des droits de propriete intellectuelle vendus prend effet des Pavenement de la 
condition suspensive visee a Farticle 4 ci-dessus. Les droits issus des droits de propriete 
intellectuelle vendus passent alors de plein droit a Go Albert France. 

Avant ce moment, Albert-Inc. SA conserve tous les droits attaches a ces droits de propriete 
intellectuelle. Elle s'engage toutefois a faire valoir ces droits de maniere compatible avec le 
present contrat et a ne rien entreprendre qui pourrait mettre son execution en peril. Albert-Inc. 
SA s'engage en outre a prendre en charge tous les frais relatifs aux droits de propriete 
intellectuelle jusqu' a la date de cession effective. 

ARTICLE 6 : Confidentialite et annonce 

Les parties conviennent de se soumettre aux memes regies de confidentialite que celles 
regissant le Protocole de cession des parts sociales sous conditions suspensives (article 14 de 
ce Protocole). 

Elle suivent les memes regies s'agissant de l'annonce de la cession des droits de propriete 
intellectuelle que celles contenues dans le Protocole de cession des parts sociales sous 
conditions suspensives (article 15 du Protocole). 

ARTICLE 7 : Droit applicable et for 

Le present contrat est soumis au droit Suisse. 

Tout litige pouvant en decouler sera soumis a la competence exclusive des tribunaux du 
canton de Vaud. 



ARTICLE 8 : Formalites 



Albert-Inc. SA s'engage a fournir et signer tous documents necessaires pour que Go Albert 
France puisse se prevaloir des droits de propriete intellectuelle acquis en vertu du present 
contrat. 



Les frais lies aux formalites d'inscription de la presente cession aupres des registres concernes 
seront a la charge de Go Albert France. Tous pouvoirs sont donnes au porteur d'un original 
des presentes aux fins d'accomplir lesdites formalites. 



Ainsi fait en quatre exemplaires a Montpellier, le 15 septembre 2003 





Albert-Inc. SA 



Go Albert France 





Alain Beauvieux 



Eric Fourboul 



UJ 

I- 

LU 

1— I 

U 

O 

CO 

< 



< 

CO 
UJ 

Q 

B< 

Uj to 
H Z 

Ml |>H 
I 

H H 
Z 

< u 

> 3 

uj -J 

Q < 

CO £ 
C UJ 

Sr i— i 



UJ 

£ 3 



o 

CO 



UJ 
Q 

H 

UJ 

CO 
UJ 

c 

of 

< 

CO 
UJ 

UJ 

CO 



< 

CL 



c 
o 

TO 

c 

<D 

E 

3 

O 

o 

0) 

73 

o 

S* 
o 
o 

c 

0) 
CO 
3 



© 

O 



c 

CO 



CO 

£ 

0) 

2 



UJ 

X 

UJ 



to 
* 

■8 

.CO 



.£ 
«u 

E 

a) 

T3 

re 



o 

> 
w 

(Q 

X 
UJ 




a 

o 

03 



CO 



o 

o3 



H 

CO 

a 

o3 

£ 



S 



o3 



a- 

o3 
O 



uo co 

oo *- 



CO 
I 



S3 

o 



qq o 

CO u 
co 

m c3 



CO 
I 

PQ 



o 



-4— » 

• r 03 
CN ->-3 

i cu 



r-H 03 

co S 

© o 

CO 



CO 



O <D S 



T3 "0 



co 
cU 



1-4 

CO _ 

> a S 

8-6 

■Bet) 

S3 O 73 

3 -*7"i co 

O .JL O 

> a 





CM 

CD 
CD 
03 
Q_ 



O 

c 



o 

UJ 



CM 



Q_ 

to 
■ 

I s - 



CSI 
I 

CO 

E 



CM 



> 
i 

00 



i 

to 



CO 

i 

CO 
CO 

E 
i 

00 



CN 



o 
o 

I 

CN 



CO 
I 

> 
c 
co 

I 



CN 
I 

CO 

E 



CN 



CN 
t — 

> 
i 

CO 



CD 

(1) 
i— 

0) 

o 



CD 
CD 

c 
a) 

a> 

"co 

Q 



co 
I s - 

CN 

CM 
CM 
CO 

cm" 



CM 

O 
i 

Q_ 
CD 

CO 
i 

I s - 



CM 
CD 
00 

CO 

I s - 



CM 

o 

I 

CO 

E 



CD 

■a 
CO 



a> 
| 

CO 
>* 
O 
C£ 

CD 
O) 

o 



CO 

in 

CD 
CO 

co 



CM 
O 

*co 

E 
i 



I s - 
co 

00 

co 
o 

CO 



in 



I s - 
co 
I s - 

o 
o 
oo 

co 
o 

• 

CO 
l_ 

CO 

E 
i 

oo 



co 

oo 
o 
m 

co 

o 
i 

CO 
1— 

CO 

E 
■ 

00 



CN 
I s - 
<3 

OO** 

I s - 

CD 

CN 



CO 

O 
i 

> 

c 

CO 

■~p 

CM 



CD 
00 

CO 

I s - 
I s - 



CN 

O 
i 

(0 

E 



CO 

CD 
00 
CO 
^3" 



CM 

o 

I 

CO 

E 
i 



< 

CO 
d 

CD 

< 

CD 
XJ 

CO 
CD 
Z3 

E 

CO 

E 

CO 
CD 
"O 

CO 



CD 

■o 

CO 

E 

CD 

■o 

O 



o 
04 

-CD 

■o 

CD 
■*— » 

CO 

Q 



CO 
CD 

CO 
CO 
JO 

o 



CO 
CO 

Q_ 



CD 
CD 

in 

O 
00 



o 
o 

I 



I s - 

CM 



in 

CD 

o 
o 

CO 

in 

CM 



CM 

O 
1 

> 
1 

CM 
CM 



CM 

O 
1 

> 
1 

0O 





CM 


CN 








CM 


00" 


00" 




CO 


co 


co" 


CO 


CO 




CD 
1— 





CO 2> 



CD 
CO 



CO 

c 

E 

E 
o 
o 

<D 

cr 
12 ^ 



CO 



I 

CO 



o 
"co 

a3 
c 

CD 

CT 
CO 



c 
o 
a. 



CD 

"co 



CD 
O 

a 
2 



CD 

C 
CO 



CD 

CD 

CO 

CL 

«/> 
LU 



CO 

£ 

CD 
CO 

Q 

<d" 
c 

\a 

O 



CD 
C 
CD 
CO 

CD 

o 

< 

CD* 

c 

CD 
CO 

E 

CD 



CM 
O 
O 
CM 

CD 
CO 



CM 
O 

> 
1 

00 



CD 
CO 
CO 

CO 



I s - 

00 
00 
CO 

o 

CO 



I 

in 



CM 



00 

I s - 

CM 
I s - 



CO 

O 
I 

CO 
CO 

E 
1 

00 

CM 



CD 

m 
co 

CN 
CN 
0O 
h- 

CO 

O 
1 

CO 

V— 

CO 

E 
in 

CN 



CN 

o 

I 

o 
o 

I 

CN 



CN 
O 
O 
CM 

CN 
CO 

m 
00 
o 



CN 

o 

I 

> 

o 
o 

I 

CN 



CM 


00 










CO 








06* 


in 


CM 


CN 


CN 


CO 


CO 








cjT 


co" 


co" 


co" 


co" 



* 

_CD 
CO 

o 

CO 
CD 



CO 



CD 
O 

c 

CO 



CO 

-a 

CO 

co 

a 



CD 



CO 
03 
LU 



■ 

CD 

E 
3 

CO 

>» 

o 

a: 

8 

CO 
1 — 

u_ 

x" 
J2 

CD 

c 

CD 
CD 

cd" 

CO 

E 

CD 



CD 
CO 
CO 



m 
in 

CD 

co 



CN 

o 
> 

I 

o 

CN 



CO 
CO 

I s - 
I s - 
o 

CO 

I s - 



o 

i 

a 
o 

CO 
I 

CO 



CN 

o 
> 

^CD 
"V 
OO 





CN 












CN 




00" 




^1- 


CN 


CO 


CM 


OO" 




co" 




CO 


CO 


II 


co" 


co" 



CN 
O 

o 

CN 
I s - 

co 



CN 

o 

> 

m — 
1 

CO 



CO 

■a 
co 

co 
O 



CO 



CO 
CO 
UJ 



* 

_CD 
CO 

c 
o 

» ■ — 

"co 
c 

1— 
CD 

c 

CD 

cr 
co 



CD 

I 

CO 

8 
I 



CD 

CD 
CD 

CD*" 

O) 
CO 

E 

CD 



CN 

00 

CO 

co" 



CD 
CO 
CO 

CO 



< 



UJ 

CD 

O 
>- 



CD 

O" 
CO 



cr 
< 

o 

CD 

O 
_j 

iu 

a 
< 



O 
O 

o 

—1 

111 

o 
< 



03 

o 

> 



CO 

co 
(3 



< 

UJ 



CO 



< 

UJ 



O 
>■ 

< 



! 



cn 
o 
o 

CN 

♦ 



© 

S3 
a 

o 

OX) 

e 

C 

-c 
c 

fx) 



X) 

-a 

CD 

£ 
Q 



LU 
QC 
CD 
< 



cn 
i 



< 

• 



I 



3 



as 

s 



> 

O 
2 



o 

§ 

> 

<D 
^— ■ 

Q 



s 

-a 
o 
2 



<o 

-a 
Q 



00 

Oh 



On 

r-H 

o 

CN 



oo 



m 
o 
o 
cn 

M 

*0 



cn 
o 

cn 

ON 



On 
on 
On 

* 

oo 



CO 
• r-H 

I 

CO 
+— > 
a* 

w 



o 

CN 
O 
CN 



> 



8 3 



I 



0. ^ 



cn 

• 

o 
cn 
io 

on 
o 



o 
o 
o 

CN 

> 
03 



"of 

2 

w 



CD 
O 

O 



i 

° r- 

E .j= 

ccj CO 

^ c: 
o o> 

DC £ 

- o 

CD CD 
c — 1 

2 <S 

_§ CO 

.E CD 
U_ "O 

- 'CD 
CD Z> 

5? - 

§-& 
UJ .g 

vf o 

£ ^ 

CD 

C CD 

- cd 
CD CL 

^ o 

CO 



O 



r O 



CD 



CD 5 

cd" £ 

_C CD 

o x 



<C <D 

cd" "co 
( — -»— » 

cn - 

Cti CD 

< ±= 



CO 
-CD 

c 

O) 

CO 
K CD 
T3 

CO 
CL 



CN 

o 

CN 



C3 




CO 

O 
si 

£ 

^ CN 



On 
VO 
VO 

VO 

cn 

CN 



O 

o 
o 

CN 

> 

c3 



C 




o 
o 

CN 



z 

OX) 

S 

s 

© 

I 

w 



> 

£ 

(0 

Q 



in 
c 



LU 
QC 
CO 
< 



cn 

vo 

to 

cn 
i 

PQ 



I 



=3 



s 

>< 

cd 

£ 

a 
-a 



> 

O 



o 
c 

> 

-a 

> 

Q 



-a 
c 

e 

O 
55 



<o 

<U 
nt— > 

as 

Q 



OO 



on 
o 

CN 

• «— ■ i 
oo 



vo 
o 

VO 
VO 



<N 
O 

o 

CN 

£ 

> 

<D 
oo 

cn 



o 

VO 

co 

On 



CN 
ON 
ON 

c 

« l-H 

* 

OO 



CO 
• »— « 

i 

CO 
4— > 

cd 

pq 



CN 
O 
CN 



> 
CO 



si ^ 

^> co 

Co" ^ 

O S 

St ^ 

o ^ 



cn 

CO 
ON 



o 
o 

CN 

> 



CD 
O 
-CD 

O 



co to 
>^ c 
o o 
DC £ 

- o 

CD 0) 

§□ 

2 o 
«d 

<t>~ 01 

<D~ 
U_ T3 

- '03 
CD 3 
C C/3 

W £ 

^" o 
E co 

CD ^ 

c CD 



CO 



CO 



CD Q_ 

t£ o 
O 2 

si 

cr 

CD ^ 

(D E 

JZ CD 

o x 



<C CD* 

CD « 

O) - - 
03 CD 

E ^ 





■ * 

CO 




^CD 








O) 




CO 




>CD 




"O 




CO 






a. 


CO 


o 


Q. 











o 
o 

CN 



> 
CO 




CO 

O 



S 

i 

•S3 



CN 



VO 
vo 

r- 

CO 
CN 



CN 
> 



-a 

cj 



y 



^ .... 



co 

o 
o 

"cd 



"tl 



0) 

c 

e 



> 
-a 

§ 

E 
Q 



co 

CO 

i 

CQ 



LU 
DC 
CQ 
< 



< 

00 

i 



3 



E 

>< 

Cd 



x> 

O 



o 

c 

S 

> 
• »— < 

4— > 

Q 



§ 

E 

no 
O 



<o 
ex 

T3 

<D 
T3 

<D 

cd 

Q 



00 

cd 
Oh 



o 

CN 
.5 

'3 

CO 



ON 

co 
O 

CO 
On 
WO 

VO 



cn 
o 
o 

CN 



CN 
CN 



in 
o 

CN 
CO 

ON 



On 

ON 

on 
c 

=3 
•*— > 

CO 



s 

1 

00 

cd 

w 



O 
CN 
O 
CN 



> 
cd 



8 | 

si 

50 oo 
to ^ 

^ ? 
Co ^ 

51 ^ 
CO R0 

5j 

Q 



N 5o 

50 



on 
od 

CO 
CO 

ON 
O 



o 
o 
o 

CN 

> 
cd 



<L> 

o 



CD 
O 
'CD 

o 



i 

CD _ 

E 

2 CD 

CO GO 
C 

O CD 

DC £ 

- o 

CD CD 

C -J 

og 

jg CO 
.E cd~ 

LL -O 
~ 'CD 
CD =5 

CL * 
CO 

UJ £ 

v-- o 

£ CO 
CD £ 

£ <o 

. 03 
CD CL 

£ d 

O 2 

- o 

cr - 

o> E? 

CQ E 

of £ 
s: cd 
o x 



cd" 1§ 

03 0 

cz -a 

< ±: 



CO 
^CD 

c 

'co 

^CD 
"O 

CO 

>^ 

03 
CL 



CN 

o 

CN 
> 




50 



C3 

50 
Co 

o 

N 5U 

si 

50 



^3 CN 



<5o 

50 ^J- 



CN 

r- 

r- 
co 

CN 



O 

o 

CN 

> 

C3 



cd 
G 

u 



V 



•J I '• 



CO 

o 
o 

CN 

*c5 



> 

-8 

-a 
c 

S 

Q 



s 

• I— ^ 

x 
£ 



> 

-a 
o 
2 



O 

c 

> 
<D 

-a 

<o 

Q 



s 
e 

5 

o 



CN 
CN 

o 

CN 

-4— » 



3 

ON 



CO 

Co 



5 



3 

co ^3 

^ « ^ 
^ 3 *^ 

r- 

Si 



^3 



ON 
CN 

to 
o 

CN 



O 

■ o^k 

*Q CN 

ft* 



si 3 

k .a §> 

^ g ^ 
ft! S 



si 



si 

•a, 

si 

<^> 

si 



•5s ^ 



CD 

o 
O 



d> _ 

§ CD 
CO c/> 

c 

O CD 

DC £ 

- o 

CD CD 

o 

CD 

of ^ 
_c0 CO 

.E dT 

LL "D 

. 'CD 
CD 13 
CO 



co 



g CO 



LU 
O 

cd . 
E w 

CD 40 
C CD 

CCJ 

Q 

- CCJ 

CD Q_ 



i 

CO 



O 



o 
o 
CO 



Si 

cr ~ 

CD g 

CQ _g 

CD** E 

_c CD 

o x 




< 

CO 



•s 

Q 



CN 
O 

o 

CN 
» 



On' 



<C CD~ 

CD~ "CO 
C 

CO CD 
E "° 



o 



Brevet No 1'546.- 

Je soussigne Laurent Besso, notaire a Lausanne (Vaud - Suisse), pour le 
district de^ce nortl, atteste que la presente photocopie est conforme au 

document original qui m'a ete presente. 

Lausanne, le vinqt-neuf iuillet deux mille cinq. 
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CONTRACT 
FOR THE ASSIGNMENT 
OF INTELLECTUAL PROPERTY RIGHTS 

between 

ALBERT-Inc. S A, company under Swiss law having its head office at rue du Simplon 
25, 1006 Lausanne (Switzerland), represented by Mr Jacques Rosset, Chairman, and 
Mrs Beth Krasna, General Manager 

on the one hand 



and 

GO-ALBERT France, limited liability company, with share capital of €100,000, 
* whose head office is situated at 12 Rue Vivienne, 75002 Paris, registered in the Paris 
Trade and Companies Register under the number RCS B 437 879 869, represented by 
Mrs Beth KRASNA and Mr Alain BEAUVIEUX, co-managers, 

along with 

Mr Alain BEAUVIEUX, born 13 July 1959 at Bagneux (France), residing at 37 Avenue 
Daumesnil, 94160 SAINT MANDE, France 

Mr Eric FOURBOUL, born 16 January 1967 at Villeneuve Saint Georges (France), 
residing at 67 Rue Lunaret, 34000 MONTPELLIER, France 

on the other hand. 



*** 
** 



PREAMBLE 



Albert-Inc. SA holds amongst its assets various patents, trademarks and other intellectual 
property rights in the field of new technologies. 

By an agreement of 2 and 3 September 2003, entitled "Heads of agreement for transfer of 
company shares under suspensive conditions", the company Albert-Inc. SA undertook to 
transfer all its shares in the company Go Albert France to Mr Alain Beauvieux and Mr 
Eric Fourboul. 

This agreement is subject to the suspensive condition of the obtaining of a maximum loan 
of 400,000 euros for a maximum period of four months and at the maximum rate of 8% 
by Mr Alain Beauvieux and Mr Eric Fourboul (article 8 of the Heads of agreement on 
transfer of company shares under suspensive conditions). 

In order to enable the latter to continue the activity of Albert, Albert-Inc. SA agrees to 
assign to Go Albert France the intellectual property rights that it holds. 

The remuneration fixed by agreement between the parties takes account of the liquidation 
phase into which Albert-Inc. SA has entered and the main objective of the transaction, 
which aims to maintain the activity of the company Go Albert France. 

THIS BEING STATED, THE PARTIES AGREE AS FOLLOWS: 
ARTICLE 1 : Obj ect of the sale 

For the requirements of the present contract, Intellectual Property Rights shall mean all 
the trademarks, names, logos, domain names, patents, copyrights, know-how and other 
similar rights, in particular over the computer programs, whether or not they are the 
subject of filings, applications for registration or registrations. 

The company Albert-Inc. SA transfers to the company Go Albert France all the 
intellectual property rights that it holds as well as the rights attached thereto, in particular 
all priority rights,, without any restriction on duration or territory. 

It is a case in particular of the trademarks and patents, a list of which appears in Annex 1. 
ARTICLE 2: Selling price 

a) The company Go Albert France shall pay to the company Albert-Inc. S A the sum of 
one euro (€1 .00) by way of consideration for the assignment of the intellectual 
property rights, and the rights attached thereto. 

b) Should Messrs Beauvieux and Fourboul and/or Go Albert France sell or transfer the 
activity of Albert and/or the Intellectual Property acquired from Albert-Inc. SA, in 
any form whatsoever, for a sum greater than ten million euros within a period of five 
years from the signature of the present agreement, they undertake jointly to pay a sum 
corresponding to 10% of the selling or transfer price of the activities of Albert and/or 
the Intellectual Property to the shareholders and bondholders of Albert-Inc. SA at the 
date of the ordinary general meeting of 2 September 2003: 



Messrs Beauvieux and Fourboul and/or Go Albert France undertake to keep the 
representative of the shareholders and bondholders of Albert-Inc. SA in the person of 
Maitre Jean-Philippe Rochat, at Lausanne, informed of any sale or transfer of activity 
or Intellectual Property occurring within five years, and of the terms on which this 
occurs. In addition they undertake to send him each year during these five years a 
signed copy of the annual accounts. 

Should the conditions posed above be fulfilled, the sum due to the shareholders and 
bondholders shall be paid to Maitre Jean-Philippe Rochat, and it shall be incumbent 
on him to pay this amount to whoever is entitled. 

■ 

At any time during this period of five years, the shareholders, through their 
representative, shall be entitled to obtain from Messrs Beauvieux and Fourboul and/or 
Go Albert France any information relating to the sale or transfer of the activity and/or 
of the Intellectual Property. 

ARTICLE 3: Guarantees 

At the date of signature of the present assignment contract, there does not exist, to the 
knowledge of Albert-Inc. S A, any dispute relating to the intellectual property rights 
sold. No licence has been granted for the use of these intellectual property rights, 
with the exception of: 

- licences granted by Albert-Inc. SA to its subsidiaries Go Albert France, Go Albert 
UK, Go Albert US A, 

■ 

licences granted by Albert-Inc. S A and the aforementioned subsidiaries to the end 
users. 

The intellectual property rights over the developments and creations made by the 
subsidiaries of Albert-Inc. SA have been assigned to Albert-Inc. SA. 

Albert-Inc. S A shall not be held responsible for any disputes which may be raised by 
third parties with regard to the intellectual property rights sold. 

• * 

Albert-Inc. SA gives no guarantee on the value of the intellectual property rights sold. 

Albert-Inc. SA gives no guarantee relating to the potential for use of the intellectual 
property rights sold. In particular it does not guarantee that the intellectual property 
rights sold are necessary and sufficient for carrying on the commercial activity 
currently deployed by Go Albert France. 

ARTICLE 4: Suspensive condition 

The present assignment contract is subject to the suspensive condition of the carrying out 
of the transfer of company shares provided for in the main agreement between Albert-Inc. 
SA and Messrs Alain Beauvieux and Eric Fourboul. 



ARTICLE 5: Time of transfer 

The transfer of the intellectual property rights sold shall take effect along with the advent 
of the suspensive condition referred to in article 4 above. The rights issuing from the 
intellectual property rights sold shall then automatically pass to Go Albert France. 

Before this time Albert-Inc. SA shall keep all the rights attached to these intellectual 
property rights. It undertakes however to assert these rights in a manner compatible with 
the present contract and to undertake nothing that might put its execution in danger. 
Albert-Inc. SA also undertakes to take responsibility for all the costs relating to the 
intellectual property rights until the effective date of transfer. 

ARTICLE 6: Confidentiality and announcement 

The parties agree to submit themselves to the same confidentiality rules as those 
governing the Heads of agreement on the transfer of company shares under suspensive 
conditions (article 14 of these Heads of agreement). 

They shall follow the same rules with regard to the transfer of intellectual property rights 
as those contained in the Heads of agreement on the transfer of company shares under 
suspensive conditions (article 15 of the Heads of agreement). 

ARTICLE 7: Applicable law and place of jurisdiction 

The present contract shall be subject to Swiss law. 

Any dispute that may stem from it shall come under the exclusive competence of the 
courts of the Canton of Vaud. 

ARTICLE 8: Formalities 

Albert-Inc. SA undertakes to provide and sign all documents necessary for Go Albert 
France to be able to prevail itself of the intellectual property rights acquired by virtue of 
the present contract. 

The costs related to the formalities of registering the present transfer with the concerned 
registers shall be the responsibility of Go Albert France. All powers are given to the 
bearer of an original of these presents for the purpose of performing the said formalities. 

Thus done in four copies in Montpellier, 15 September 2003. 

[Signatures] 

Albert-Inc. S A Go Albert France 



Alain Beauvieux 



Eric Fourboul 
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Systeme d' extraction d' informations 
dans un texte en langage naturel 

La presente invention concerne un systeme d' extraction 
d' informations dans un texte en langage naturel, en vue de 
selectionner les mots ou les groupes de mots du texte qui 
decrivent le mieux les sujets abordes dans le texte. Ces mots 
ou groupes de mots sont appeles les "mots-cles" et sont 
notamment utilisables a des fins d' indexation du texte dans 
une base de donnees documentaire , en particulier pour le 
resume automatique du texte, pour la categorisation ou toute 
autre tentative de representation de la connaissance . 

Les systemes d' extraction d ' informations que 1 ' on connait et 
qui tentent d'atteindre ces objectifs utilisent des methodes 
d' analyses de trois types : 

- les methodes d- analyse statistique qui tentent d'elire les 
mots du texte les plus representatif s en comptant leurs 
frequences d' apparition et en ne retenant que ceux dont la 
frequence n'est ni trop faible, ni trop forte; 

- les methodes d' analyse a thesaurus qui fonctionnent d'apres 
une representation predefinie de la connaissance et qui sont 
basees sur la definition prealable d'un lexique structure de 
reference appele thesaurus. Cette definition est entierement 
manuelle et doit etre operee dans chaque domaine de 
specialites ; 

- les methodes d' analyse a reconnaissance de motifs (patterns) 
qui fonctionnent a 1 ' aide d ' identifications statistiques de 
motifs (patterns) . 

Le fonctionnement comparatif de ces trois types de methodes 
d'analyse va etre illustre ci-apres par l'analyse du texte 
suivant : 
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"«Cats», l'une des comedies musicales les plus longtemps a l'affiche, va 
tirer sa reverence apres vingt et une annees sur la scene londbnienne . La 
derniere representation de cette oeuvre d'Andrew Lloyd Webber aura lieu le 
11 mai, jour de son 21e anniversaire , apres quelque 9 000 representations. 
L'annonce a ete faite trois jours apres la derniere representation de 
«Starlight Express», la seconde comedie musicale la plus longtemps a 
l'affiche a Londres, apres dix-huit annees sur les planches. 

La fin de «Cats» est un coup dur supplementaire pour le quartier de Covent 
Garden, ou sont regroupes la plupart des theatres londoniens, et qui a 
souffert d'une forte baisse de f requentation en 2001. Depuis 1981, annee 
de son lancement, la comedie musicale a, depuis, ete interpretee devant 
plus de 50 millions de spectateurs en ll langues et dans 26 pays:" 

(source Reuter) 

Fonctionnement des methodes d' analyse statistique : 

Si l'on considere leur approche de fagon caricaturale, les 
methodes d 1 analyse statistique comptent les mots du texte pour 
ne retenir que ceux dont la frequence n'est ni trop faible ni 
trop forte en eliminant parfois les mots outils (articles, 
prepositions, conj onctions , auxiliaires verbaux) , afin 
d'af finer les resultats. En ce qui concerne le texte propose 
ci-dessus, les mots "moyennement » frequents (sans prendre en 
consideration les mots outils) sont alors : 

affiche, annees, Cats, comedie, derniere, ete, longtemps, 
musicale et representation. 

Bien que le principal avantage des methodes d' analyse 
statistique reside dans une grande simplicity algorithmique , 
leur principal desavantage reside en la faible pertinence des 
resultats. En effet, les mots "moyennement " frequents d'un 
texte sont rarement les plus representatif s . Ces methodes 
peuvent toutefois donner de meilleurs resultats sur des textes 
plus longs que le texte d'exemple ci-dessus. 
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D' autre part, du fait que le texte est decoupe en mots, c'est- 
a-dire en chaines de caracteres dont les delimiteurs sont des 
espaces, les liens semantiques qui peuvent relier des mots 
entre eux, comme par exemple les mots "comedie" et "musicale", 
sont perdus . 

Fonctionnement des methodes d' analyse a thesaurus : 

Ces methodes sont basees sur la definition prealable d'un 
lexique structure de reference appele thesaurus, cette 
definition etant, comme on l'a mentionne plus haut, 
entierement manuelle et devant etre operee dans chaque domaine 
de speciality . 

* 

Imaginons par exemple le thesaurus suivant : 

spectacle comedie (s) -> dramatique 

—> musicale -> Cats 

— > Les dix commandement 
— > savante 

Avec ce type de methodes, il est tou jours possible 
d 1 identifier les mots du texte source qui se retrouvent 
exactement sous la meme forme dans le thesaurus. L'avantage de 
ces methodes est que 1 1 on peut etre sur que les mots 
identifies correspondent a une realite culturelle ou 
scientifique etablie et repertoriee. D' autre part, il est 
possible de deduire un mot federateur comme "spectacle" qui ne 
fait pas partie du texte initial, mais qui le caracterise 
correctement . En revanche, 1 1 inconvenient majeur de ces 
methodes est qu'il faut perpetuellement mettre a jour le 
thesaurus pour qu'il conserve sa pertinence, ce qui entraine 
des frais de maintenance importants. Un autre inconvenient 
important de ces methodes reside dans le fait qu'un thesaurus 
constitue pour analyser des textes dans le domaine de la 
chimie ne pourra pas etre utilise pour des textes dans le 
domaine de 1 ' electronique , par exemple. De plus, dans le cas 
ou le thesaurus n'est pas exhaustif, certaines exp/essiona qui 
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peuvent etre tres pertinentes ne seront pas reconnues comme 
telles. 

Fonctionnement des methodes d* analyse a reconnaissance de 
motifs : 

Les methodes d' analyse a reconnaissance de motifs que 1 ■ on 
connait sont des methodes d » identification statistiques de 
motifs qui, bien qu'elles ameliorent considerablement les 
methodes d' analyse statistique mentionnees plus haut, en 
conservant la trace de 1 ' appariement des mots, comme par 
exemple des termes "comedie" et "musicale" de 1 'exemple ci- 
dessus, ne permettent pas d' analyser de fagon correcte des 
textes courts. En effet, les methodes statistiques ont besoin 
de quantite pour fonctionner correctement . 

Par exemple, les motif s-cles du texte d' exemple seront obtenus 
par comparaisons approximat ives de sequences plus ou moins 
longues entre elles. Les mots outils (le, la, les, ...) ne 
comptent pas, et les sequences sont formees a partir d'un mot, 
plus ou moins trois mots : 

Cats 

Cats comedies 

Cats comedies musicales 

Cats comedies musicales longtemps 

comedies 

comedies musicales 

comedies musicales longtemps 

comedies musicales longtemps affiche 

musicales 

musicales longtemps 
musicales longtemps affiche 
musicales longtemps affiche tirer 

tl ^Z* • » • 

II suffit ensuite de regrouper les differentes sequences 
obtenues, par approximation sur la forme (par exemp 
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« comedies » et « comedie ») , et de compter les expressions 
combinees les plus frequentes comme « comedies musicales ». 

Le but de la presente invention est de proposer un systeme 
pour 1' extraction d 1 informations dans un texte en langage 
naturel permettant de- remedier aux inconvenients des methodes. 
d' analyses connues, en permettant notamment une analyse de 
bonne qualite de textes aussi bien courts que longs. 

A cet effet, le systeme utilise une methode d' analyse par 
identification de motifs (patterns) non pas statistique, mais 
syntaxique . 

En resume, le systeme propose convertit les mots du texte en 
suite de categories syntaxiques, puis confronte des sous- 
ensembles du texte avec des motifs syntaxiques predefinis, de 
facon a identifier des groupes nominaux sans prejuger de la 
valeur des mots qui composent ces groupes. 

Ainsi, les mots « pomme de terre » ou « electronique de 
puissance » ne sont pas important par eux-memes, mais sont 
importants par rapport au texte ou ils apparaissent . Dans un 
texte de nature generale « electronique de puissance » peut 
n'etre qu'un exemple, pas un mot-cle du texte, mais sera 
probablement mot-cle dans un texte traitant des transistors. 
C'est le contexte qui fait le mot-cle, et le systeme selon la 
presente invention comporte en quelque sorte un analyseur de 
contextes syntaxiques. De meme, le mot "porta" peut etre 
reconnu comme nominal dans certains textes a cause de sa 
position par rapport aux autres mots du texte, ou simplement 
comme mot structurel dans d' autres textes. 

Le systeme d' extraction selon 1 ' invention evalue la fonction 
grammaticale des mots du texte a analyser a l'aide d'un 
lexique predefini contenant les quelques dizaines de mots 
outils propres a chaque langue et qui sont essentiellement les 
articles, les prepositions, les conjonctions et auxiliaires 
verbaux. La fonction des autres mots est ensuite deduite grace. 
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a 1 • emplacement des seuls mots outils. Du fait que les mots 
outils d'un texte representent couramment 40 a 50 % des mots 
de ce texte, ceux-ci sont done tou jours assez nombreux pour 
permettre 1 ' evaluation des autres mots. Ensuite, seules les 
parties du texte dont la grammaire est identifier comme mots- 
cles possibles sont retenues. 

Les avantages du systeme d 1 extraction selon 1 ' invention sont 
nombreux. On relevera, en particulier, qu'aucune intervention 
humaine n'est necessaire pour la determination des mots-cles, 
que le systeme peut f onctionner pour des textes de langues 
diverses et que, mis a part le lexique des mots outils, il ne 
necessite aucun autre lexique. De pius, du fait que la valeur 
semantique et grammaticale des mots outils est fixe et 
n'evolue pratiquement jamais sur plusieurs decennies, la 
maintenance du lexique est des plus reduites. En revanche, la 
valeur des autres mots, que 1 1 on peut appeler les mots d' usage 
(verbes, noms, adjectifs) , evolue sans cesse dans le temps, en 
fonction des usages, de 1' evolution des metiers ou des 
sciences, ou simplement en fonction de l'actualite. Du fait 
que le systeme de la presente invention ne presuppose rien sur 
la valeur des mots d f usage, il fonctionne de fagon identique 
dans tous les domaines, litteraire, technique ou scientif ique , 
alors que les systemes qui utilisent les methodes connues 
doivent toujours etre enrichis avec des lexiques specialises, 
fabriques bien souvent sur mesure . 

D 1 autre part, contrairement aux systemes utilisant des 
methodes d» analyse statist ique dans lesquelles la frequence 
d' apparition des mots est un critere de selection, ce qui 
suppose que le texte soit suffisamment long, le systeme selpn 
l 1 invent ion n'accorde a la frequence d' apparition des mots 
qu'une importance subalterne et fonctionne aussi bien pour des 
textes longs de plusieurs dizaines de pages que pour des 
textes courts de quelques lignes . 
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On va decrire ci-apres, a titre d< exemple, un systeme 

d' extraction d ' informations selon 1 ' invention dans un texte en 

langage naturel , en se referant aux dessins, sur lesquels : 

- la fig. l est un schema-bloc du systeme d 1 extract ion selon 
1 1 invention; 

- la fig. 2 est un schema-bloc des etapes d'un mode 
d' execution du procede selon 1* invention. 

L 1 utilisation d'un modele syntaxique requiert de reconnaitre 
la langue du texte analyse. C'est done naturellement la 
premiere operation qu'effectue le systeme d' extraction selon 
l 1 invention. Cette reconnaissance de la langue peut etre basee 
sur des criteres purement statist iques de cooccurrence de 
lettres. La reconnaissance des langues, par exemple anglais, 
espagnol, fran^ais, portugais, allemand ou italien, permet 
d'orienter les analyses qui seront realisees en aval. 

L'etape suivante est une etape de profilage du texte qui 
permet d'identifier les lignes de texte (paragraphes) 
comportant une information linguistique, et d'operer des 
regroupements de paragraphes. Cette operation est 
particulierement utile pour les textes structures (avec 
titres, sous-titres, etc.), car elle permet de regrouper des 
paragraphes de fagon coherente. Elle est inutile pour des 
textes courts . 

> 

L' etape suivante consiste en une operation de regularisation 
du texte au cours de laquelle il s ! agit d'eliminer les 
amalgames de signes, comme par exemple separer les caracteres 
typographiques des caracteres alphabetiques . II sera par 
exemple utile de reconnaitre la chaine "mot," comme le terme 
"mot" suivit de » , » , alors que la chaine "1,5" devra etre 
reconnue comme un nombre . 
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Dans le t-exte d'exemple, cette etape revient a separer les 
caracteres typographiques (», '■ , "■" e t ».") des autres mots 
par des espaces blancs . Le texte d'exemple devient alors : 

"« Cats » , I ' une des comedies musicales les plus longtemps a 1 ' affiche , va tirer 
sa reverence apres vingt et une annees sur la scene londonienne . La derniere 
representation de cette oeuvre d ' Andrew Lloyd Webber aura lieu le 11 mai , jour 
de son 21e anniversaire , apres quelque 9 000 representations . L ' annonce a ete 
faite trois jours apres la derniere representation de « Starlight Express » , la 
seconde comedie musicale la plus longtemps a 1 ' affiche a Londres , apris dix - 
huit annees sur les planches . 

La fin de « Cats » est un coup dur supplemental pour le quartier de Covent 
Garden , ou sont regroupes la plupart des theatres londoniens , et qui a souffert d ' 
une forte baisse de frequentation en 2001 . Depuis 1981 , annee de son lancement 
, la comedie musicale a , depuis , ete interpretee devant plus de 50 millions de 
spectateurs en 1 1 langues et dans 26 pays 

L' etape suivante, qui const itue une etape cle du systeme, 
consiste a determiner la categorie de chaque mot. Grace au 
lexique restreint des mots outils, les mots du texte sont 
codes selon des categories grammaticales attributes en 
fonction de la valeur syntaxique des mots. Les mots outils du 
lexique sont dans un premier temps reconnus dans le texte, 
puis la fonction des autres mots du texte est deduite en 
fonction de leur emplacement par rapport aux mots outils deja 
reconnus . 

Ainsi, si 1 1 on adopte par exemple les categories suivantes : 

s: mot de structure (mot outil non utile pour la suite de 
l f analyse) 

d: determinant (le, la, les, etc.) ■ • 

p: preposition (de, en, par, etc.) 

4 : signe ouvrant ou f ermant 

1 ou 2 : ponctuation 

3 : apostrophe 

N: nombre 

W: nom propre 

w: nom commun 

c: amalgame (du, des, au, aux, ...) 



B3851EP- 04/06/02 




- 9 - 



a: anaphores (ce, cet, ces, ...) 

*: code attribue si aucune des categories precedentes n'est 



reconnue 



Le texte d'exemple mentionne plus haut devient : 

4 W 4 2 d 3 d c w3 w4 d w1 w2 p d 3 w3 2 s w2 a w4 w2 w1 p d w2 p d w2 w4 1 d w3 w5 p a w2 p 3 W W W w2 

w1 d N w1 2 w1 p a * w5 2 w2 d N N w5 1 d 3 w3 s w2 w2 d w1 w2 d w3 w5 p 4 W W 4 2 d w3 w3 w4 d w1 w2 d 

d 3 w3 p W 2 w2 d 0 d w2 p d w2 1 d w1 p 4 W 4 s d w1 w1 w5 p d w2 p W W 2 s s w3 d w2 c w2 w3 2 d s s w2 
p 3 d w2 w2 p w4 p N 1 W N 2 w2 p a w3 2 d w3 w4 s 2 w2 2 w2 w4 w2 w1 p N w2 p w3 p N w2 p p N w1 1 

Une etape suivante consiste a identifier les structures 
linguistiques appelees syntagmes nominaux dans la terminologie 
linguist ique ou, plus simplement, groupes nominaux. 

L 1 ensemble des motifs syntaxiques qu'il est utile d' identifier 
constitue la grammaire d' analyse. Du fait que cette grammaire 
est commune a 1' ensemble des langues romanes, il est possible 
d' analyser un grand nombre de langues en utilisant un meme 
systeme d' extraction selon 1 • invention sans adaptation lourde. 

A titre d'exemple, une grammaire (simplifiee) peut avoir la 
forme suivante : 

(1) syntagme nominal -> determinant , groupe nominal ; W 

(2) determinant -> d ; d , 3 ; nombre ; c ; a 

(3) d -> 'le' ; l la' ; >les' ; 'des' ; »l» ; etc... 
Obis) c -> *du' ; >au' ; 'aux' ; etc... 

(3ter) a -> 'ce' ; 'cette' ; 'ces' ; 'son' ; etc... 

(4) groupe nominal -> expression , groupe nominal 

(5) expression ->w,p,w,-w. 

(6) p -> 'de' ; '£' ; 'pour' ; 'sans' ; etc... 

La fldche se dit « se reecrit », la virgule se dit « suivi 
de », le point-virgule exprime un « ou », le point marque la 
fin de la regie. La regie (1) se lit « syntagme nominal se 
reecrit determinant suivi de groupe nominal ». 
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Les regies (3) et (6) sont dites regies terminales car elles 
font appels aux formes lexicales du lexique des mots outils. 

La regie (4) est une regie recursive. Un groupe' nominal peut 
done contenir une infinite d' expressions ,. lesquelles, selon 
la regie (5) sont soit de type wpw,. soit de type w. 

Les suites de categories grammat icales suivantes seront done 
reconnues comme syntagme nominal : 

d w 

d w p w 
d w w 

d w w p w 1 

d 3 w w 

etc... 



Sur le texte d'exemple, les groupes nominaux identifies a 
l'aide de cette grammaire ont ete soulignes : 

«Cats», l'une des comedies rnusicales les plus longtemps a l'affiche, va 
tirer sa reverence apres vingt et une annees sur la scene londonienne . La 
derniere representation de cette oeuvre d' Andrew Lloyd Webber aura lieu le 
11 mai, jour de son 2le anniversaire , apres quelques 9 qqq 
representations. L' annonce a ete faite trois jours apres la derniere 
representation de ^Starlight Express* . la seconde comedie musicale la plus 
longtemps a l' affiche a Londres , apres dix-huit annees sur les planches . ■ 

La fin de «Cats» est un coup dur supplementaire pour le quart ier de Covent 
Garden, ou sont regroupes la plupart des theatres londoniens , et qui a 
souffert d'une forte bais se de f reouentation en 2001 . Depuis 1981, annee ' 
de son lancement, la comedie musicale a, depuis, ete interpretee devant 
plus de 50 millions de spectateurs en 11 langues et dans 26 pays . 

(source Reuter) 

Comme les groupes nominaux representent a peu pres 50 % du 
texte, il est necessaire de ne retenir que ceux dont la 
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probabilite d'etre de vrais mots-cles du texte est la plus 
forte. 

Une etape suivante peut consister a filtrer les groupes ■ 
nominaux. Tous les groupes nominaux n'ont pas la meme capacite 
ref erentielle . Certains sont plus importants que d'autres. 
Pour determiner quels sont les plus importants d'entre eux, le 
systeme selon 1 ' invention valorise chaque groupe nominal en 
fonction d'un double critere, l'un statistique, 1' autre 
syntaxique . 

• » 

Le critere statistique : 

Les mots les plus frequents des groupes nominaux sont classes 
par ordre de frequence decroissant (en tenant compte d'une 
approximation comme x comedie' = 1 comedies ' ) , soit dans le 
texte d f exemple : 



comedie 3 

musicale 3 

affiche 2 

annees 2 

Cats 2 

derniere 2 



representation 2 

Seuls les mots dont 1' occurrence depasse 1 sont conserves dans 
la liste. Les mots elimines ont done une valeur nulle. On 
ajoute a la valeur de chaque groupe nominal (initialement 
fixee a 0) , la valeur de 1 ' occurrence des mots qu'il contient 
moins 1. La valeur des groupes nominaux devient : 

1) + (3 - 1) = 4 
1 = 1. 
1 = 1 

fl 7 
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comedie musicale (3 

affiche 2 

affiche a Londres 2 

Cats 2 
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Le critere syntaxique : 

Lorsque qu'un groupe nominal est ou comporte un nom propre, 
celui-ci prend un point de valeur supplementaire , 0 sinon. 

comedie musicale 4+0=4 
affiche 1+0=1 
af f iche a Londres 1+1=2 
Cats 1+1=2 

Avec cette valorisation, il est aise de proceder au classement 
des groupes nominaux. Dans le texte d 1 exemple., les groupes 
nominaux pergus comme les plus importants sont soulignes deux 
fois, les. groupes d' importance secondaire sont soulignes une 
fois, tandis que les autres ont ete purement et simplement 
elimines . 



« Cats », l'une des comedies musicales les plus longtemps a 1' affiche, va 
tirer sa reverence apres vingt et une annees sur la scene londonienne . La 
derniere representation de cette oeuvre &' Andrew Lloyd Webber aura lieu le 
11 mai, jour de son 21e anniversaire , apres quelque 9 000 representations . 
L'annonce a ete faite trois jours apres la derniere representation de 
^ Starlight Express » / la seconde comedie musicale la plus longtemps a 
1' affiche a Londres , apres dix-huit annees sur les planches. 

La fin de «Cats» est un coup dur supplementaire pour le quartier de Covent 
Garden , ou sont regroupes la plupart des theatres londoniens , et qui a 
souffert d'une forte baisse de f requentation en 2001. Depuis 1981, annee 
de son lancement , la comedie musicale a, depuis, ete interpretee devant 
plus de 50 millions de spectateurs en 11 langues et dans 26 pays. 

(source Reuter) 
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Revendications 



.1. Procede d' extraction d 1 informations dans un texte en 
langage naturel, par identification de motifs (patterns), 
caracterise en ce que l'on effectue un codage des mots du 
texte en les comparant avec le contenu d'un lexique predef ini 
de mots outils, et en ce que l'on identifie ensuite des 
groupes nominaux en recherchant, parmi des sous-ensembles de 
la suite des mots codes ainsi obtenue, des groupes de mots 
codes repondant a des regies syntaxigues predef inies . 

2. Procede selon la revendication 1, caracterise en ce 
que le codage des mots du texte s' effectue par evaluation de 
la fonction grammaticale.de chaque mot en le comparant avec le 
contenu dudit lexique de mots outils, de fagon a reperer les 
mots outils dans le texte et en ce que la fonction des mots 

d' usage, non reconnus comme mots outils, est deduite en 
comparant leur emplacement par rapport a 1 ' emplacement des 
mots reconnus comme mots outils. 

3. Procede selon l'une des revendications 1 ou 2 , 
caracterise en ce que les groupes nominaux identifies sont 
ensuite valorises de fa<?on a ne retenir que les groupes pergus 
comme les plus importants en utilisant des cri teres de 
valorisation predef inis. 

4. Systeme d' extraction d' informations dans un texte en 
langage naturel, caracterise en ce qu'il comprend : 

- une unite d' entree pour recevoir ledit texte en 
langage naturel, 

- un fichier lexique dans lequel sont enregistres des 
mots outils, 

- un processeur d' analyse relie a ladite unite d' entree, 
au fichier lexique et agence pour effectuer dans un 
premier temps le codage des mots dudit texte en 
langage naturel par evaluation de la fonction 
grammaticale de chaque mot en le comparant avec le 
contenu dudit fichier lexique de mots outils, de fagon 
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d'une part a reperer les mots outils dans le texte et 
a evaluer la fonction des mots d 1 usage, non reconnus 
comme mots outils, en comparant leur emplacement par 
rapport a 1 1 emplacement des mots reconnus comme mots 
outils, et dans un deuxieme temps une recherche, parmi 
des sous-ensembles de la suite de mots codes obtenue, 
des groupes de mots codes repondant a des regies 
syntaxiques predefinies, de fagon a identifier des 
groupes nominaux, 

- une unite de sortie reliee audit processeur d' analyse 
pour recevoir les groupes de mots codes reconnus comme 

4 

des motifs syntaxiques, 

5. Systeme selon la revendication 4, caracterise en que 
le processeur d' analyse comprend en outre des moyens de 
valorisation des groupes de mots codes retenus de fagon a ne 
retenir que les groupes pergus comme les plus importants. 

6. Systeme selon l'une des revendications 3 ou 4, 
caracterise en ce que le processeur d' analyse comprend en 
outre des moyens de reconnaissance de la langue du texte regu 
dans 1' unite d' entree. 

7. Systeme selon l'une des revendications 4 a 6, 
caracterise en ce que le processeur d' analyse comprend en 
outre des moyens de regularisation du texte regu dans 1' unite 
d' entree de fagon a eliminer les amalgames de signes. 
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Fig. 1 



fichier lexique 



Unite d'entree 



Processeur d'analyse 



Unite de sortie 



Fig. 2 



Reconnaissance de la langue 

i 

Profilage du texte 

i 

Regularisation du texte 

i 

Codage du texte 

Identification des motifs 
syntaxiques 

i 

Filtrage des groupes 
nominaux 
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